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20 世 纪 90 年 代 初 ,人 类 基因 组 计划 (human genome project, HGP ) 的 启动 推动 
了 生物 学 .医学 .药学 与 信息 科学 之 间 的 紧密 联系 ,海量 数据 的 收集 存储、 分 析 
及 解释 促使 全 世界 科学 家 思考 生物 学 .医学 和 药学 发 展 的 新 思路 ,生物 信息 学 藉 
是 在 这 样 的 痛 景 下 产生 并 划 动 发 展 起 来 的 。 生 物 信息 学 ( bioinformatics ) 是 以 数 
理科 学 为 理论 基础 .以 计算 机 技术 为 工具 ,进行 深层 次 生物 医学 海量 数据 挖 抉 与 
分 析 的 多 学 科 交 又 的 新 兴学 科 。 伴 随 着 现代 生物 技术 的 发 展 ,生物 信息 学 在 现 
代 生 物 学 .医学 和 药学 的 发 展 中 发 挥 着 重要 作用 。 

随 着 新 一 代 测 序 技术 、 生 物 必 片 技 术 药物 利 选 技术 等 的 快速 发 展 , 现 代 生 
物 学 .医学 .药学 研究 已 经 由 单一 因素 、 单 个 分 了 于 层面 进入 到 高 通 量 、 大 规模 的 组 
学 研究 时 代 。 面 对 信息 含量 大 ,数理 逻辑 强 的 生物 学 .医学 .药学 资源 ,传统 的 实 
验方 法 遇 到 巨大 挑战 ,已 经 难以 独立 解决 众多 复杂 的 生物 学 医学 A] SL 
在 此 基础 上 ,以 海量 数据 分 析 为 研究 内 容 的 生物 信息 学 逐渐 成 为 生物 学 ` 医 学 、 
药学 研究 领域 不 可 或 缺 的 组 成 部 分 。 生物 信息 学 理论 能 够 广泛 地 应 用 于 生物 学 、 
医学 药学 等 研究 领域 ,如 人 类 疾病 病因 学 研究、 临床 诊断 标志 物 识别 ,疾病 分 型 
和 预后 预测 .遗传 调控 机 制 和 分 子 通路 建立 药物 靶 标 识别 与 药物 设计 、 新 兴 生 
物 大 分 子 发 现 与 功能 分 析 .生理 模拟 与 病理 推断 、 动 植物 育种 与 分 子 进化 等 方 
面 ,并 能 够 极 大 地 促进 个 性 化 医疗 的 发 展 。 由 此 ,我 们 总 结 多 年 积 素 的 尝 术 思想 、 
研究 心得 及 结果 ,编著 了 《生物 信息 学 理论 与 医学 实践 》 一 书 。 本 书 旨 在 为 生物 
学 、 医 学 药学 研究 领域 的 科学 工作 者 及 生物 信息 学 领域 的 同行 .学 生 等 人 员 介 
绍 生物 信息 学 基础 理论 数据 分 析 方 法 及 其 在 生物 学 .医学 . 约 尝 领域 中 的 应 用 
RF o 

本 书 不 仅 对 生物 信息 学 研究 领域 的 基础 知识 及 基本 理论 进行 了 许 细 介绍 ， 
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AH PE 2523 98 VR. .序列 比 对 、 分 子 进 化 .基因 芯片 及 蛋白 质 结 构 等 ; 而 且 介绍 了 目 


前 国内 外 生命 科学 研究 应 用 的 热门 技术 及 热点 领域 ,如 新 一 代 测序 技术 、 富 集 分 


析 技 术 、 表 观 遗 传 学 分 析 技术 、microRNA 与 疾病 研究 及 药物 四 点 得 查 技术 ,并 对 
。 书 中 涉及 的 各 种 分 析 技术 给 出 详细 的 应 用 实例 。 我 们 希望 能 与 感 兴趣 的 读者 交 
O 流 , 有 机 会 完善 本 书 。 限 于 作者 目前 的 水 平 ,加 之 时 间 仓促 , 书 中 必 有 许多 不 足 
。 之 处 ,希望 能 够 得 到 读者 的 指正 。 

; 本 书 每 一 章 的 编者 都 有 相关 领域 多 年 并 丰富 的 研究 经 历 ,每 一 章 都 凝聚 了 
O 他 们 的 学 术 思想 及 科研 成 果 。 他 们 在 百 忙 之 中 精心 组 织 材料 . 字 其 名 酌 编写 本 
书 ,在 此 我 们 对 全 体 编者 的 无 私 奉献 表示 更 心 的 感谢 ! 多 年 来 ,我 们 的 工作 得 到 
了 哈尔滨 医科 大 学 各 方面 的 大 力 支持 与 热情 鼓励 ,同时 也 得 到 了 国家 自然 科学 
基金 的 支持 ,说 在 此 一 并 表示 诚挚 的 谢意 ! 
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第 一 万 


生物 信息 学 的 产生 及 发 展 





Section 1 The rise and development of bioinformatics 


一 、 生 物 信息 学 的 产生 >> 


生物 信息 学 的 产生 仅 有 几 十 年 的 时 间 , bioinformatics 这 一 名 词 更 是 在 1991 年 前 后 才 在 
文献 中 出 现 的 。 事 实 上 , 早 在 1956 年 ,在 美国 田纳西 州 盖 特 林 堡 召开 的 首次 “生物 学 中 的 信 
县 理论 研讨 会 ”上 , 便 产 生 了 生物 信息 学 的 概念 ,只 不 过 最 初 向 被 称 为 基因 组 信息 学 。 就 生 
物 信息 学 的 发 展 而 言 , 它 还 是 一 门 相 当年 轻 的 学 科 。 直 到 20 世 纪 80~90 年 代 , 伴 随 着 计算 机 
科学 技术 的 进步 ,生物 信息 学 才 有 了 突破 性 进展 。 

20 世 纪 后 期 ,生物 科学 技术 、 计 算 机 科学 技术 和 网 络 技 术 日 益 渗透 到 生物 科学 的 各 个 
领域 ,生物 科学 的 数据 资源 获得 迅猛 发 展 。 数 据 资 源 的 急剧 膨胀 迫使 人 们 寻求 一 种 强 有 力 
的 工具 去 组 织 这 些 数 据 , 以 利于 储存 、 加 工 和 进一步 利用 。 同 时 ,海量 的 生物 学 数据 中 必然 
旨 售 着 重要 的 生物 学 规律 ,这 些 规 律 将 是 解释 生命 之 谜 的 关键 ,人 们 同样 需要 一 种 串 有 力 的 
工具 对 这 些 数 据 进 行 分 析 。20 世 纪 80 年 代 末 期 ,生物 学 家 认识 到 将 计算 机 科学 与 生物 学 绪 
合 起 来 的 重要 意义 ,开始 留意 要 为 这 一 领域 构思 一 个 合适 的 名 称 。1987 年 , “生物 信 息 学 ” 
( bioinformatics ) 这 一 学 科 名 词 镍 生 。 此 后 ,生物 信息 学 的 内 涵 随 厦 研 究 的 深 和 人 和 现实 的 需 
要 而 几经 更 迭 。1995 年 ,在 美国 人 类 基因 组 计划 第 一 个 五 年 总 结 报告 中 ,给 出 了 一 个 较为 完 
整 的 生物 信息 学 定义 : 生物 信息 学 是 一 门 交 又 科学 , 它 包 含 了 生物 信息 的 获取 、 加 工 \、 存 储 、 
分 配 、 分 析 、 解 释 等 在 内 的 所 有 方面 , 它 综 合 运 用 数学 、 计 算 机 科学 和 生物 学 的 各 种 工具 ,来 
阐明 和 理解 大 量 数据 所 包含 的 生物 学 意义 。 

从 生物 信息 学 产生 的 历程 可 以 看 出 ,基因 组 信息 是 生物 信息 中 最 早 的 表现 形式 ,并 且 基 
因 组 信息 在 生物 信息 中 占有 极 大 的 比重 。 但 是 ,生物 信息 并 不 仅 限 于 基因 组 信息 ,生物 信息 
学 也 不 等 同 于 基因 组 信息 学 。 广 义 地 说 ,生物 信息 不 仅 包 括 基 因 组 信息 ,如 基因 的 DNA 序 列 、 
染色 体 定 位 ,也 包括 基因 产物 (和 蛋白质 或 RNA ) 的 结构 和 功能 及 各 生物 种 间 的 进化 关系 等 其 
他 信息 资源 。 生 物 信 息 学 既 涉 及 基因 组 信息 的 获取 、 人 处理、 贮存、 传递, 分 析 和 人 解释 ,又 涉及 
重 日 质 组 信息 学 如 重 昌 质 的 序列 、 结 构 、 功 能 及 定位 分 类 、 和 绰 白 质 连锁 图 、 和 蛋 日 质数 据 库 的 建 
立 、 相 关 分 析 软 件 的 开发 和 应 用 等 方面 ,还 涉及 基因 与 重 白 质 的 关系 如 和 蛋白 质 编码 基因 的 识 
别 及 算法 研究 . 重 日 质 结 构 .功能 预测 等 ,另外 ,新 药 人 研制 .生物 进化 也 是 生物 信息 学 研究 的 
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因此 ,生物 信息 学 是 融合 生物 科学 与 数理 科学 的 新 兴学 科 , 具 体 地 说 生物 信息 学 是 以 核 
酸 、 和 蛋白 质 等 生物 大 分 子 数据 库 为 主要 研究 对 象 , 以 数学 \ 信 息 学 计算机 科学 为 主要 人 研究 手 
段 , 以 计算 机 硬件 软件 和 计算 机 网 络 为 主要 研究 工具 ,对 浩如烟海 的 原始 数据 进行 存储 、 管 
理 \ 注 释 、 加 工 , 使 之 成 为 具有 明确 生物 意义 的 生物 信息 。 并 通过 对 生物 信息 的 查询 \ 搜 索 、 
比较 .分 析 , 从 中 获取 基因 编码 .基因 调控 、 核 酸 和 和 蛋白质 结 构 功 能 及 其 相互 关系 等 理性 知 
识 。 在 大 量 信息 和 知识 的 基础 上 ,探索 生命 起 源 、 生 物 进 化 以 及 细胞 . 需 官 和 个 体 的 发 生 、 发 
A 病变、 肾 T 等 生命 科学 中 的 重大 问题 。 











二 、 生 物 信息 学 的 发 展 历史 >> 


生物 信息 学 自 产生 以 来 大 致 经 历 了 前 基因 组 时 代 基因 组 时 代 和 后 基因 组 时 代 三 个 发 
展 阶段 。 三 个 阶段 虽 无 明显 的 界限 , 却 真实 地 反映 了 生物 信息 学 整个 研究 重心 的 转移 变化 
历程 。 


(一 ) 前 基因 组 时 期 


从 19 世 纪 开 始 , 人 们 逐渐 认识 到 和 蛋白 质 在 生命 活动 中 的 重要 作用 。1953 年 , 沃 森 和 克 里 
克 发 现 了 DNA 双 螺旋 的 结构 ,开局 了 分 子 生物 学 时 代 , 使 遗传 的 研究 深入 到 分 子 层次 , “生命 
ik” 被 打开 ,人 们 清楚 地 了 解 遗 传 信息 的 构成 和 传递 途径 。 此 后 ,一些 新 兴学 科 如 雨 后 春 
算 般 出 现 , 这 些 学 科 的 产生 和 发 展 为 生物 信息 学 的 产生 竟 定 了 坚实 的 基础 。1956 年 在 美国 
田纳西 州 的 盖 特 林 堡 召开 了 首次 “生物 学 中 的 信息 理论 研讨 会 ,一些 计算 生物 学 家 开始 进 
行 生 物 信息 相关 人 研究 ,尽管 当时 还 没有 具体 地 提出 生物 信息 学 的 概念 ,但 做 了 许多 生物 信息 
搜集 和 分 析 方 面 的 工作 。1962 年 , Zucherkand1 和 Pauling 人 研究 了 序列 变化 与 进化 之 间 的 关系 ， 
开创 了 一 个 新 的 领域 一 一 分 子 进化 。 随 后 ,通过 序列 比较 确定 序列 的 功能 及 序列 分 类 关系 
便 成 为 序列 分 析 的 主要 工作 。1967 年 , Dayhoff 研 制 出 蛋白 质 序 列 图 集 , 该 图 集 后 来 演变 为 著 
名 的 重 白 质 信 息 源 ( protein information resource, PIR )。 20 世 纪 60 年 代 是 生物 信息 学 形成 的 
萌芽 阶段 。 

从 70 年 代 到 80 年 代 初 期 , 随 着 生物 化 学 技术 的 发 展 ,产生 出 许多 生物 分 子 序列 数据 ,而 
在 这 个 阶段 数学 统计 方法 和 计算 机 技术 都 得 到 较 快 的 发 展 ,于 是 促使 一 部 分 计算 机 科学 家 
应 用 计算 机 技术 解决 生物 学 问题 ,特别 是 与 生物 分 子 序列 相关 的 问题 。 他 们 开始 研究 生物 
分 子 序列 ,人 研究 如 何 根 据 序列 推测 结构 和 功能 ,出 现 了 一 系列 著名 的 序列 比较 方法 ,其 中 ， 
Needleman 和 Wunsch 于 1970 年 提出 的 序列 比 对 算法 是 对 生物 信息 学 发 展 最 重要 的 贡献 。 同 
年 , Cibbs 和 MeIntyre 发 表 的 矩阵 打点 作 图 法 也 是 进行 序列 比较 的 一 个 车 名 方法 ， 该 方法 可 用 
于 寻找 序列 中 的 重复 片段 ,从 而 推测 其 功能 。Dayhoff 提 出 的 基于 点 突变 模型 的 PAM( point 
accepted multation ) 矩阵 是 第 一 个 广泛 使 用 的 比较 氨基 酸 相 似 性 的 打分 和 矩阵, 它 大 大 地 提高 
了 序列 比较 算法 的 性 能 。1981 年 , Smith 和 Waterman 提 出 了 著名 的 公共 子 序列 识别 算法 , 同 
年 , Doolittle 提 出 关于 序列 模式 的 概念 。1983 年 , Wilbur 和 Lipman 发 表 了 数据 库 相 似 序 列 搜 
索 算 法 。1985 年 ,出 现 快速 的 重 日 质 序 列 搜 索 算法 FASTP/FASTN ,1988 年 , Pearson 和 Lipman 
发 表 了 著名 的 序列 比较 算法 FASTA。1990 年 ,快速 相似 序列 搜索 算法 BLAST 问世 ,1997 年 ， 
BLAST 的 改进 版 本 PSI-BLAST 投 入 实际 应 用 。 
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20 世 纪 80 年 代 以 后 ,出 现 一 批 生 物 信 息 服务 机 构 和 生物 信息 数据 库 。1982 年 ,核酸 数据 
库 CenBank 第 3 版 公开 发 行 。1986 年 ,日 本 核酸 序列 数据 库 DDBJ 竹 生 。1986 年 ,出 现 蛋 白质 
数据 库 SWISS-PROT。1988 年 ,美国 国家 卫生 研究 所 和 美国 国家 图 书馆 成 立国 家 生物 技术 信 
息 中 心 NCBI。 同 年 ,成立 欧洲 分 子 生物 学 网 络 (EMBnet ), 该 网 络 专门 发 布 各 种 生物 数据 库 。 

20 世 纪 90 年 代 后 ,科学 家 们 开始 了 大 规模 的 基因 组 研究 。1986 年 ,出 现 基 因 组 学 
( genomics ) 概念 , 即 研究 基因 组 的 作 图 .测序 和 分 析 。1990 年 ,国际 人 类 基因 组 计划 局 动 , 该 
计划 被 誉 为 生命 科学 的 “阿波 罗 登 月 计划 ”。1993 年 ,成 立 Sanger 中 心 , 该 中 心 专门 从 事 基因 
组 研究 。1995 年 ,第 一 个 细菌 基因 组 被 完全 测序 ,1996 年 ,酵母 基因 组 被 完全 测序 。1996 年 ， 
Affymetrix 生 产 出 第 一 块 DNA 心 片 。1998 年 ,第 一 个 多 细胞 生物 一 一 线虫 的 基因 组 被 完全 测 
序 。1999 年 , 果 蝇 的 基因 组 被 完全 测序 。1999 年 年 底 ,国际 人 类 基因 组 计划 联合 研究 小 组 宣 
布 人 类 第 一 次 获得 一 对 完整 的 人 类 染色 体 一 一 第 22 对 染色 体 的 遗传 序列 。2000 年 6 月 24 日 ， 
人 类 基因 组 计划 协作 组 的 6 个 国家 研究 机 构 在 全 球 同一 时 间 宣 布 已 完成 人 类 基因 组 的 工作 
框架 图 。 与 此 同时 ,生物 信息 学 在 人 类 基因 组 计划 的 推动 之 下 迅速 发 展 。 


(二 ) 人 类 基因 组 计划 


人 类 基因 组 计划 (human genome project, HGP ) 是 由 美国 科学 家 于 1985 年 率先 提出 ,于 
1990 年 正式 局 动 的 。 美 国 . 身 国 \ 法 国 、 前 西 德 \ 日 本 和 中 国 科学 家 共同 参与 了 这 一 预算 达 30 
亿美 元 的 人 类 基因 组 计划 。 按 照 这 个 计划 的 设想 ,在 2005 年 ,要 把 人 体内 约 10 万 个 基因 的 密 
码 全 部 解 开 ,同时 绘制 出 人 类 基因 的 谱 图 。 换 句 话 说 ,就 是 要 揭 开 组 成 人 体 4 万 个 基因 30 亿 
个 碱 基 对 的 秘密 。 人 类 基因 组 计划 与 曼哈顿 原子 弹 计 划 和 阿波 罗 计 划 并 称 为 三 大 科学 计划 。 

人 类 基因 组 计划 ( HGP ) 的 目的 是 测 出 人 类 基因 组 DNA 上 30 亿 个 碱 基 对 的 序列 ,发 现 所 
有 人 类 基因 , 找 出 它们 在 染色 体 上 的 位 置 ,破译 人 类 全 部 遗传 信息 。 进 而 解码 生命 .了解 生 
命 的 起 源 、 了 解 生命 体 生长 发 育 的 规律 .认识 种 属 之 间 和 个 体 之 间 存 在 差异 的 起 因 、 认 识 
病 产生 的 机 制 以 及 长 寿 与 衰老 等 生命 现象 .为 疾病 的 诊治 提供 科学 依据 。 在 人 类 基因 组 计 
划 中 ,还 包括 对 五 种 生物 基因 组 的 研究 : 大 肠 埃 和 布 菌 .酵母 线虫 . 果 蝇 和 小 鼠 , 称 之 为 人 类 的 
五 种 “模式 生物 ”。 

人 类 基因 组 计划 ( HGP ) 的 主要 任务 是 人 类 的 DNA 测 序 , 包 括 下 面 四 张 谱 图 ,此 外 还 有 
测序 技术 .人 类 基因 组 序列 变异 .功能 基因 组 技术 .比较 基因 组 学 .社会 .法律 .伦理 研究 E 
物 信息 学 和 计算 生物 学 .教育 培训 等 目的 ,利用 HCP 发 展 起 来 的 这 些 技术 和 资源 进行 生物 学 
研究 的 科学 家 ,促进 了 人 类 健康 。 

1. 遗传 图 谱 ( genetic map) 又 称 连锁 图 谱 ( linkage map ), 它 是 以 具有 遗传 多 态 性 (在 一 
个 遗传 位 点 上 具有 一 个 以 上 的 等 位 基因 ,在 群体 中 的 出 现 频 率 皆 高 于 1% ) 的 遗传 标记 为 “路 
标 ” ,以 遗传 学 距离 (在 减 数 分 裂 事 件 中 两 个 位 点 之 间 进 行 交换 、 重 组 的 百分率 ,1% 的 重组 率 
称 为 lcM ) 为 图 距 的 基因 组 图 。 遗 传 图 谱 的 建立 为 基因 识别 和 完成 基因 定位 创造 了 条 件 。 
意义 : 6000 多 个 遗传 标记 已 经 能 够 把 人 的 基因 组 分 成 6000 多 个 区 域 , 使 得 连锁 分 析 法 可 以 找 
到 某 一 致 病 或 表现 型 基因 与 某 一 标记 邻近 (紧密 连锁 ) 的 证 据 ,这样 可 把 这 一 基因 定位 于 这 
一 已 知 区域 , 再 对 基因 进行 分 离 和 人 研究 。 对 于 疾病 而 言 , 找 基因 和 分 析 基 因 是 关键 。 

2. 物理 图 谱 ( physical map) 物理 图 谱 是 指 有 关 构 成 基因 组 的 全 部 基因 的 排列 和 间距 
的 信息 , 它 是 通过 对 构成 基因 组 的 DNA 分 子 进行 测定 而 绘制 的 。 绘 制 物 理 图 谱 的 目的 是 把 
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有 关 基 因 的 遗传 信息 及 其 在 每 条 染色 体 上 的 相对 位 置 线 性 而 系统 地 排列 出 来 。DNA 物 理 图 
谱 是 指 DNA 链 的 限制 性 酶 切片 段 的 排列 顺序 , 即 酶 切片 段 在 DNA 链 上 的 定位 。 因 限制 性 内 
切 酶 在 DNA 链 上 的 切口 是 以 特异 序列 为 基础 的 , 核 芽 酸 序列 不 同 的 DNA ,经 栈 切 后 就 会 产生 
不 同 长 度 的 DNA 片 段 ,由 此 而 构成 独特 的 酶 切 图 谱 。 因 此 , DNA 物 理 图 谱 是 DNA 分 子 结构 的 
特征 之 一 。DNA 是 很 大 的 分 子 ,由 限制 性 内 切 酶 产生 的 用 于 测序 反应 的 DNA 片 段 只 是 其 中 
极 小 部 分 ,这 些 片 段 在 DNA 链 中 所 处 的 位 置 关系 是 应 该 首先 解决 的 问题 , 故 DNA 物 理 图 谱 是 
顺序 测定 的 基础 ,也 可 理解 为 指导 DNA 测 序 的 蓝图 。 

3. 序列 图 谱 ( sequence map) 随 着 遗传 图 谱 和 物理 图 谱 的 完成 ,测序 就 成 为 重 中 之 重 
的 工作 。DNA 序 列 分 析 技 术 是 一 个 包括 制备 DNA 片 段 化 及 碱 基 分 析 、DNA 信 息 翻 译 的 多 阶 
段 过 程 。 通 过 测序 得 到 基因 组 的 序列 图 谱 。 

4. 基因 图 谱 ( gene map) 基因 图 谱 是 在 识别 基因 组 所 包含 的 蛋白 质 编 码 序列 的 基础 
上 绘制 的 结合 有 关 基 因 序 列 \ 位 置 及 表达 模式 等 信息 的 图 谱 。 在 人 类 基因 组 中 鉴别 出 占 
2%~5% 长 度 的 全 部 基因 的 位 置 .结构 与 功能 ,最 主要 的 方法 是 通过 基因 的 表达 产物 mRNA 反 
追 到 染色 体 的 位 置 。 

基因 图 谱 的 意义 在 于 它 能 有 效 地 反映 在 正常 或 受 控 条 件 下 表达 的 全 基因 时 空 图 。 通 过 
这 张 图 可 以 了 解 某 一 基因 在 不 同时 间 不 同 组 织 ,不同 水 平 的 表达 ; 也 可 以 了 解 一 种 组 织 中 不 
同时 间 ,不同 基因 中 不 同 水 平 的 表达 ,还 可 以 了 解 某 一 特定 时 间 不 同 组 织 中 的 不 同 基因 不 
同 水 平 的 表达 。 

HGCP 对 人 类 疾病 基因 的 研究 有 重要 意义 ,人 类 疾病 相关 基因 是 人 类 基因 组 中 结构 和 功 
能 完整 性 至 关 重 要 的 信息 。 对 于 单 基因 病 , 采 用 “定位 克隆 "和 “定位 候选 克隆 "的 全 新 思路 ， 
导致 了 亨廷顿 舞蹈 病 遗传 性 结肠 癌 和 乳腺 癌 等 一 大 批 单 基因 遗传 病 致 病 基因 的 发 现 ,为 这 
些 疾 病 的 基因 诊断 和 基因 治疗 商定 了 基础 。 对 于 心血 管 疾病 .肿瘤 糖尿病 .神经 精神 类 疾 
病 (老年 性 痴 采 精神 分 裂 症 和 自身 免疫 性 疾病 等 多 基因 疾病 是 目前 疾病 基因 研究 的 重点 。 
健康 相关 研究 是 HGP 的 重要 组 成 部 分 ,1997 年 相继 提出 : “肿瘤 基因 组 解放 计划 ” “环境 基因 
组 学 计划 ”“ 国 际 人 类 基因 组 单 体型 图 计划 ( The International HapMap Project )”’ . 


(=) 后 基因 组 时 代 


随 着 人 类 基因 组 计划 的 完成 ,我 们 进入 了 “后 基因 组 学 ”( post-genomies ) 时 代 。 基 因 
组 学 研究 重心 已 开始 从 揭示 生命 的 所 有 遗传 信息 转移 到 在 分 子 整 体 水 平 对 功能 的 研究 上 ， 
这 种 转向 的 一 个 标志 是 产生 了 功能 基因 组 学 ( functional genomics ) 这 一 新 学 科 。 功 能 基因 组 
学 是 指 在 全 基因 组 序列 测定 的 基础 上 ,从 整体 水 平 研 究 基因 及 其 产物 在 不 同时 间 、 空 间 、 条 
件 的 结构 与 功能 关系 及 活动 规律 的 学 科 。 人 类 基因 组 计划 在 基因 表达 图 谱 方 面 已 取得 一 定 
进展 ,但 它 有 90% 的 功能 尚 不 明确 ,功能 基因 组 学 将 借助 生物 信息 学 的 技术 平台 ,利用 先进 
的 基因 表达 技术 及 庞大 的 生物 功能 检测 体系 ,从 浩瀚 无 起 的 基因 库 第 选 并 确 知 某 一 特定 基 
因 的 功能 ,通过 比较 分 析 基 因 及 其 表达 的 状态 ,确定 基因 的 功能 内 涵 , 揭 示 生 命 奥 秘 ,甚至 开 
发 出 基因 产品 。 功 能 基因 组 学 在 后 基因 组 时 代 占 有 重要 位 置 ,其 研究 成 果 百 接 给 人 类 健康 
审 来 福音 。 

在 后 基因 组 时 代 生 物 信息 学 的 作用 将 更 加 举足轻重 ,要 读 懂 人 类 基因 组 计划 测序 得 到 
“RP” ,仅仅 依靠 传统 的 实验 观察 手段 无 济 于 事 , 必 须 借助 高 性 能 计算 机 和 高 效 数据 处 理 的 
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算法 语言 。 只 有 如 此 ,天 书 ” 才能 发 挥 它 应 有 的 价值 。 生 命 科 学 的 革命 性 巨变 已 把 生物 信 
息 学 推 到 了 前 台 , 生 物 信息 技术 已 成 为 后 基因 时 代 的 核心 技术 之 一 ,在 蛋白 质 组 学 ,功能 基 
因 组 学 ,药物 基因 组 学 等 领域 必 将 更 有 用 武之 地 ,从 而 对 生命 科学 的 发 展 产生 无 法 估计 的 巨 


三 .生物 信息 学 在 未 来 生命 科学 研究 中 的 作用 》》 


21 世 纪 医 学 模式 将 发 生 革 命 性 的 变化 ,生物 信息 学 也 将 发 挥 更 重要 的 作用 。 首 先 ,从 19 
世纪 末 20 志 纪 初 以 细胞 病理 学 为 基础 的 医学 模式 ,正在 问 分 子 医学 (以 分 于 生物 学 、 分 子 细 
胞 学 分子 药 理学 以 及 现代 计算 机 技术 等 为 基础 ) 模 式 转变 。 人 类 基因 组 计划 正在 建立 起 人 
类 基因 与 生理 病理 之 间 关 系 的 知识 视图 ; 生物 领域 的 新 技术 (生物 芯片 .生物 信息 学 )、 新 的 
研究 方法 (功能 基因 组 学 .蛋白 组 学 ) 在 临床 中 逐步 得 到 应 用 ,更 新 了 医学 科学 基础 。 其 次 ， 
医疗 实践 以 循 证 医学 为 主 ,从 基因 ,和 蛋 日 质 等 大 分 子 水 平 研究 疾病 的 发 病 机 制 ,对 疾病 进行 
预防 .诊断 和 治疗 ,目标 是 向 特异 性 诊断 .个 体 化 治疗 发 展 。21 世 纪 , 遗 传 信息 在 临床 环境 下 
的 集成 应 用 必 将 导致 个 性 化 医疗 等 新 的 临床 实践 。 未 来 10 年 预防 性 基因 检测 会 变 得 普遍 ， 
并 将 应 用 在 具有 家 族 遗 传 倾向 的 个 体 化 监测 中 ,2015 年 遗传 信息 将 会 对 临床 医学 产生 普遍 
影响 ,医生 将 通过 患者 的 基因 组 数据 与 Internet 上 可 获得 的 数据 库 ( 药 物 、 群 体 数 据 ,临床 档 
案 ) 进行 比较 来 进行 疾病 诊断 及 指导 患者 治疗 ; 临床 医师 将 能 够 用 计算 机 输出 他 们 患者 的 
遗传 构成 ,从 而 能 够 个 性 化 .有 针对 性 地 设计 给 药 。 基 于 遗传 信息 的 决策 文 持 系统 .辅助 临 
床 医师 解释 分 子 标 记 数 据 的 专家 系统 、 智 能 化 临床 决策 文 持 系统 等 将 成 为 临床 医生 必 不 可 
少 的 工具 。 分 子 水 平生 物 信息 检测 设备 (基因 芯片 、 蛋 白质 必 片 质谱 仪 等 ) 将 成 为 医疗 领域 
的 新 需求 。 尤 其 是 微 流 控 基 因 必 片 、 蛋 白质 芯片 技术 将 在 21 世 纪 成 熟 并 应 用 于 临床 ,因此 生 
物 芯 片 数 据 分 析 技 术 及 分 析 系 统 将 成 为 临床 医生 的 常规 工具 。 

此 外 ,伴随 着 后 基因 组 时 代 高 通 量 组 学 ( high-throughput omies ) 技术 涌现 与 生物 信息 学 
的 飞速 发 展 ,出 现 了 大 量 潜在 的 生物 标记 ( biomarker ), 其 中 一 些 可 以 用 于 疾病 诊断 和 治疗 。 
这 些 生 物 标记 信息 在 临床 上 的 应 用 潜力 是 巨大 的 ,然而 目前 仅 有 少数 的 标记 用 于 临床 实践 。 
如 何 将 这 些 生 物 标记 应 用 于 临床 诊断 疾病 风险 评估 与 预防 模式 .指导 个 体 化 治疗 、 开 发 新 
的 药物 靶 点 等 将 是 未 来 生物 信息 学 研究 的 热点 问题 ,也 是 转化 医学 的 核心 内 容 。 
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Section 2 The main research content of bioinformatics 


生物 信息 学 早期 的 研究 内 容 主 要 局 限于 基因 组 序列 的 存储 和 分 析 , 随 着 基因 组 测序 数 
据 迅 猛 增加 及 计算 机 技术 快速 发 展 ,特别 是 人 类 基因 组 计划 的 顺利 完成 ,产生 了 海量 的 生物 
学 数据 。 这 些 数 据 具 有 丰 宙 的 内 家 ,其 中 隐藏 看 丰 军 的 生物 学 知识 。 充 分 利用 这 些 数据 , 通 
过 数据 分 析 、 处 理 , 揭 示 这 些 数 据 的 内 洱 , 得 到 对 人 类 有 用 的 信息 ,是 生物 信息 学 家 所 面临 的 
一 个 严峻 的 挑战 。 因 此 ,生物 信息 学 的 人 研究 内 容 也 在 得 到 不 断 的 丰富 和 补充 。 从 目前 生物 
信息 学 的 研究 内 容 来 看 ,大 致 包括 以 下 几 个 方面 : 基因 组 信息 学 .转录 组 信息 学 .和 蛋白 质 组 信 
息 学 和 代谢 组 信息 学 。 


一 、 基 因 组 信息 学 》》 


基因 组 是 指 一 种 微生物 (包括 细菌 和 病毒 ) 或 其 他 生物 体 细胞 中 的 总 DNA 或 RNA( 反 转 
录 病 毒 ), 包 括 核 DNA 细胞 右 DNA( 动 植物 线粒体 DNA 和 植物 叶绿体 DNA ) 和 染色 体外 遗传 
成 分 (如 细菌 的 质粒 DNA )。 随 着 人 类 基因 组 计划 ( HGP ) 的 实施 ,产生 了 大 量 的 基因 组 信息 ， 
分 析 这 些 信息 是 生物 信息 学 的 重要 内 容 。 人 类 基因 组 共有 约 30 亿 个 碱 基 对 ,对 如 此 大 量 的 
信息 数据 进行 搜集 ,存储 及 分 配 是 生物 学 领域 从 未 遇 到 过 的 问题 。 这 些 数 据 中 包括 编码 人 
类 全 部 蛋白 质 和 结构 核糖 核酸 (RNA ) 的 信息 ,以 及 调控 这 些 蛋 白质 和 核酸 装配 成 生物 体 的 
信息 。 因 此 解读 这 些 信 息 是 一 个 很 大 的 难题 。 基 因 组 信息 学 的 主要 目标 就 是 配合 人 类 基因 
组 计划 的 各 项 实验 研究 ,测定 人 类 基因 组 的 完整 核 车 酸 序列 ,确定 约 10 万 个 人 类 基因 在 染色 
体 上 的 位 置 ,以 及 研究 包括 基因 在 内 的 各 种 DNA 片 段 的 功能 ,也 就 是 “ 读 懂 ”人 类 基因 组 。 

基因 组 信息 学 涉及 基因 组 信息 的 获取 、 人 处 理 , 存 储 、 分 配 、 分 析 和 解释 等 所 有 方面 。 具体 
而 言 ,就 是 要 构建 研究 基因 组 的 数据 库 ,发展 包括 算法 ,软件 .硬件 在 内 的 有 效 的 信息 分 析 工 
具 以 及 完善 与 基因 组 研究 相关 的 国际 互联 网 络 , 随 着 基因 组 信息 学 研究 的 不 断 完善 和 深入 ， 
目前 生物 信息 学 涉及 的 基因 组 信息 学 研究 主要 包括 比较 基因 组 学 .功能 基因 组 学 和 药物 基 


(一 ) 比较 基因 组 学 
比较 基因 组 学 ( comparative genomics ) 是 基于 基因 组 图 谱 和 测序 基础 上 ,对 已 知 的 基因 
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和 基因 组 结构 进行 比较 ,来 了 解 基因 的 功能 、 表 达 机 制 和 物种 进化 的 学 科 。 利 用 模式 生物 基 
因 组 与 人 类 基因 组 之 间 编 码 顺 序 上 和 结构 上 的 同 源 性 ,克隆 人 类 疾病 基因 ,揭示 基因 功能 和 
疾病 分 子 机 制 ,阐明 物种 进化 关系 ,及 基因 组 的 内 在 结构 。 比 较 基因 组 学 的 基础 是 相关 生物 
基因 组 的 相似 性 。 两 种 具有 较 近 共同 祖先 的 生物 ,它们 之 间 具 有 种 属 差别 的 基因 组 是 由 祖 
先 基 因 组 进化 而 来 ,两 种 生物 在 进化 的 阶段 上 越 接近 ,它们 的 基因 组 相关 性 就 越 高 。 如 果 生 
物 之 间 存 在 很 近 的 亲缘 关系 ,那么 它们 的 基因 组 就 会 表现 出 同 线性 ( synteny ), 即 基因 序列 的 
部 分 或 全 部 保守 。 这 样 就 可 以 利用 模 基 因 组 之 间 编 码 顺序 上 和 结构 上 的 同 源 性 ,通过 已 知 
基因 组 的 作 图 信息 定位 另外 基因 组 中 的 基因 ,从 而 揭示 基因 淤 在 的 功能 阐明 物 种 进化 关系 
及 基因 组 的 内 在 结构 。 

早期 的 比较 基因 组 研究 中 ,模式 生物 基因 组 被 用 于 人 研究 人 类 疾病 基因 的 功能 ,利用 基 
因 顺 序 上 的 同 源 性 克隆 人 类 疾病 基因 。 利 用 模式 生物 实验 系统 上 的 优越 性 ,在 人 类 基因 组 
研究 中 的 应 用 比较 作 图 分 析 复 杂 性 状 , 加 深 对 基因 组 结构 的 认识 。 此 外 ,通过 对 不 同 亲 缘 关 
系 物种 的 基因 组 序列 进行 比较 ,能 够 鉴定 出 编码 序列 \ 非 编码 调控 序列 及 给 定 物种 独 有 的 序 
列 。 而 基因 组 范围 之 内 的 序列 比 对 ,可 以 了 解 不 同 物种 在 核 苷 酸 组 成 、 同 线性 关系 和 基因 顺 
序 方面 的 异同 ,进而 得 到 基因 分 析 预 测 与 定位 .生物 系统 发 生 进化 关系 等 方面 的 信息 。 同 种 
群体 内 的 比较 基因 组 研究 则 发 现 基因 组 存在 大 量 的 变异 和 多 态 性 ,而 正 是 这 种 基因 组 序列 
的 差异 构成 了 不 同 个 体 与 群体 对 疾病 的 易 感 性 和 对 药物 与 环境 因子 不 同 反 应 的 遗传 学 基 
础 。 目 前 最 背 见 的 变异 和 多 态 性 包括 单 核 苷 酸 多 态 性 ( single-nucleotide polymorphism, SNP ) 
和 拷贝 数 变 异 ( copy number variant, CNV )。 


(二 ) 功能 基因 组 学 


功能 基因 组 学 (functional genomics ) 又 被 称 为 后 基因 组 学 ( post-genomies ), 它 利用 结构 
基因 组 所 提供 的 信息 和 产物 ,发 展 和 应 用 新 的 实验 手段 ,通过 在 基因 组 或 系统 水 平 上 全 面 分 
析 基 因 的 功能 ,使 得 生物 学 研究 从 对 单一 基因 或 蛋 白 质 的 研究 转 癌 多 个 基因 或 蛋白质 同时 
进行 系统 的 研究 。 这 是 在 基因 组 静态 的 碱 基 序列 弄 清楚 之 后 转 人 对 基因 组 动态 的 生物 学 功 
HE OTE o 

功能 基因 组 的 一 个 重要 任务 是 进行 基因 组 功能 注释 ( genome annotation ), 了 解 基因 的 功 
能 ,认识 基因 与 疾病 的 关系 ,掌握 基因 的 产物 及 其 在 生命 活动 中 的 作用 。 在 使 用 全 局 方法 进 
行人 研究 时 ,研究 人 员 同 时 检测 大 量 基 因 的 表达 水 平 , 从 而 在 整体 水 平 上 获得 关于 基因 功能 及 
基因 之 间 相 互 作用 的 信息 。 如 果 说 生物 信息 学 在 人 类 基因 组 计划 中 的 着 重点 是 基因 组 序列 
的 话 , 那 么 在 功能 基因 组 中 ,生物 信息 学 的 看 重点 则 是 序列 的 生物 学 意义 ,基因 组 编码 序列 
的 转录 、 翻 译 过 程 和 结果 ,着 重 分 析 基 因 表达 调控 信息 ,分 析 基 因 及 其 产物 的 功能 。 在 功能 
基因 组 时 代 , 应 用 生物 信息 学 方法 ,高 通 量 的 注释 基因 组 所 有 编码 产物 的 生物 学 功能 是 一 个 
重要 的 特征 。 功 能 基因 组 学 的 研究 主要 包括 以 下 几 个 方面 的 内 容 , 并 且 这 几 方 面 都 与 生物 
信息 学 密切 相关 : 山 进一步 识别 基因 ,识别 基因 转录 调控 信息 ,分 析 遗 传 语言 ; @ 注 释 所 有 
基因 产物 的 功能 ,这 是 目前 基因 组 功能 注释 的 主要 层次 。 序 列 同 源 性 分 析 、 生 物 信 息 关 联 分 
析 、 生 物 数据 挖掘 是 进行 功能 注释 的 主要 生物 信息 学 手段 ; (3 研究 基 因 的 表达 调控 机 制 , 研 
究 基 因 在 生物 体 代谢 途径 中 的 地 位 ,分 析 基 因 、 基 因 产 物 之 间 的 相互 作用 关系 ,绘制 基因 调 
控 网 络 图 。 
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” (三 ) 药物 基因 组 学 


25 9] 3E 2H ^£ ( pharmacogenomics ) 又 被 称 为 基因 组 药物 学 或 基因 组 药理 学 ,是 生物 信 
县 学 的 一 个 重要 分 文 , 定 义 为 在 基因 组 学 的 基础 上 ,通过 将 基因 表达 或 单 核 苷 酸 的 多 态 性 与 
约 物 的 疗效 或 毒性 联系 起 来 ,研究 药物 如 何 由 于 遗传 变异 而 产生 不 同 的 作用 。 药 物 基因 组 
学 根据 患者 的 基因 型 来 保证 最 大 疗效 的 同时 将 不 良 反 应 降 到 最 低 , 用 于 探索 合理 的 方法 来 
优化 药物 治疗 方案 。 这 样 的 方法 使 得 个 体 化 治疗 ( personalized medicine ) 出 现 , 可 以 根据 每 
个 人 独特 的 基因 组 成 来 制定 最 佳 的 药物 或 合并 用 药 治 疗 方案 。 

药物 基因 组 学 可 以 说 是 基因 功能 学 与 分 子 药理 学 的 有 机 结合 ,在 很 多 方面 这 种 结合 是 
非常 必要 的 。 药 物 基因 组 学 区 别 于 一 般 意 义 上 的 基因 学 , 它 不 是 以 发 现 人 体 基 因 组 基因 为 
主要 目的 ,而 是 相对 简单 地 运用 已 知 的 基因 理论 改善 患者 的 治疗 。 药 物 基因 组 学 以 药物 效 
应 及 安全 性 为 目标 ,研究 各 种 基因 突变 与 药 效 及 安全 性 的 关系 。 正 因为 药物 基因 组 学 是 研 
究 基 因 序 列 变异 及 其 对 药物 不 同 反 应 的 科学 ,所 以 它 是 研究 高 效 、 特 效 药物 的 重要 途径 , 通 
过 它 为 患者 或 者 特定 人 和 群 寻找 合适 的 药物 ,药物 基因 组 学 强调 个 体 化 ,有 重要 的 理论 意义 和 
广阔 的 应 用 前 景 。 如 当前 对 基因 的 研究 可 发 现 带 有 某 种 特定 基因 的 人 ,会 对 某 种 特定 的 药 
物 成 分 ,产生 某 种 特定 反应 。 将 这 个 基因 药物 成 分 与 服用 后 反应 的 一 连 串 关联 ,运用 在 用 
约 之 上 ,就 可 知道 沉 有 茶 特定 基因 之 人 ,不 适合 服用 含有 某 特定 成 分 的 药物 ,进而 降低 药物 
副作用 产生 的 风险 ; 反之 ,也 可 以 知道 带 有 某 特 定 基因 之 人 ,特别 适合 服用 含有 某 特定 成 分 
的 药物 ,进而 提升 治愈 疾病 的 几率 。 


二 、 转 录 组 信息 学 》》 


转录 组 学 (transcriptomics ) 是 一 门 在 整体 水 平 上 研究 细胞 中 基因 转录 的 情况 及 转录 调 
控 规 律 的 学 科 。 转 录 组 即 一 个 活 细胞 所 能 转录 出 来 的 所 有 RNA 的 总 和 ,是 从 RNA 水 平 研究 
基因 表达 的 情况 ,是 研究 细胞 表 型 和 功能 的 一 个 重要 手段 。 转 录 组 是 连接 基因 组 遗传 信息 
与 生物 功能 的 蛋白 质 组 的 纽带 ,转录 水 平 的 调控 是 最 重要 也 是 目前 研究 最 广泛 的 生物 体 调 
控 方 式 。 转 录 组 信息 学 是 生物 信息 学 的 重要 分 支 ,负责 研究 在 特定 细胞 类 型 内 所 生产 的 
RNA 分 子 ,探讨 在 一 个 特定 的 细胞 群 内 的 基因 表达 水 平和 调控 情况 ,通常 采用 基于 DNA 芯 片 
技术 的 高 通 量 技术 ,最 近 发 展 起 来 的 新 一 代 测序 技术 也 广泛 用 来 研究 转录 组 。 人 类 基因 组 
包含 有 30 亿 个 碱 基 对 ,其 中 大 约 只 有 5 万 个 基因 转录 成 mRNA 分 子 ,而 转录 后 的 mRNA 仅 部 分 
被 翻译 生成 功能 性 的 蛋白 质 。 与 基因 组 不 同 , 转 录 组 更 有 时 间 空 间 性 。 我 们 人 体 大 部 分 细 
胞 具有 一 模 一 样 的 基因 ,而 即使 同一 细胞 在 不 同 的 生长 时 期 及 生长 环境 下 ,其 基因 表达 情况 
也 是 不 完全 相同 的 。 所 以 ,除了 异 稼 的 mRNA 降解 现象 (如 转录 衰减 ) 以 外 ,转录 组 反映 的 是 
特定 条 件 下 活跃 表达 的 基因 。 同 时 ,蛋白 质 组 研究 需要 更 多 的 转录 组 研究 的 信息 。 因 为 单 
一 的 蛋白 质 组 数据 不 足以 清楚 地 鉴定 基因 的 功能 ,因此 蛋白 质 组 的 数据 也 需要 转录 组 的 研 
究 结果 加 以 印证 。 因 此 ,转录 组 的 研究 可 以 推断 相应 未 知 基 因 的 功能 ,揭示 特定 调节 基因 的 
作用 机 制 。 通 过 对 转录 组 的 研究 ,科研 人 员 还 可 以 确定 不 同 种 类 的 细胞 和 组 织 的 基因 在 何 
时 何 地 被 激活 或 进入 睡眠 ,对 转录 本 的 定量 可 以 了 解 特定 基因 的 活性 和 表达 量 , 用 于 疾病 的 
诊断 和 治疗 ,比如 与 癌症 相关 的 基因 表达 量 的 改变 可 以 帮助 我 们 揭 开 癌症 的 秘密 。 
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(一 ) 基因 表达 图 谱 


以 DNA 为 模板 合成 RKNA 的 转录 过 程 是 基因 表达 的 第 一 步 , 也 是 基因 表达 调控 的 关键 环 
阁 。 所 谓 基因 表达 ,是 指 基 因 携 市 的 遗传 信息 转变 为 可 辨别 的 表 型 的 整个 过 程 。 与 基因 组 
不 同 的 是 ,转录 组 的 定义 中 包含 了 时 间 和 空间 的 限定 。 同 一 细胞 在 不 同 的 生长 时 期 及 生长 
环境 下 ,其 基因 表达 情况 是 不 完全 相同 的 。 通 过 测序 技术 揭示 造成 差异 的 情况 ,已 是 目前 最 
利用 的 手段 。 人 类 基因 组 包含 有 30 亿 个 碱 基 对 ,其 中 大 约 只 有 5 万 个 基因 转录 成 mRNA 分 子 ， 








.转录 后 的 mRNA 能 被 翻译 生成 蛋白 质 的 也 只 占 整 个 转录 组 的 40% 左 右 。 通 常 同一 种 组 织 


达 几 乎 相同 的 一 套 基 因 以 区 别 于 其 他 组 织 , 如 脑 组 织 或 心肌 组 织 等 分 别 只 表达 全 部 基因 中 
不 同 的 30% 而 显示 出 组 织 的 特异 性 。 

半 录 组 详 可 以 提供 什么 条 件 下 什么 基因 表达 的 信息 ,并 据 此 推断 相应 未 知 基因 的 功能 ， 
揭示 特定 调节 基因 的 作用 机 制 。 通 过 这 种 基于 基因 表达 谱 的 分 子 标签 ,不 仅 可 以 辨别 细胞 
的 表 型 归属 ,还 可 以 用 于 疾病 的 诊断 。 同 样 对 那些 临床 表现 不 明显 或 者 缺乏 诊断 金 标准 的 
疾病 也 具有 诊断 意义 ,如 自 闭 症 。 目 前 对 自 闭 症 的 诊断 要 靠 长 达 十 多 个 小 时 的 临床 评估 才 
能 做 出 判断 。 基 础 研究 证 实 自 财 钙 不 是 由 单一 基因 引起 ,而 很 可 能 是 由 一 组 不 稳定 的 基因 
造成 的 一 种 多 基因 病变 ,通过 比 对 正常 人 群 和 患者 的 转录 组 差异 ,筛选 出 与 疾病 相关 的 具有 
诊断 意义 的 特异 性 表达 差异 ,一 旦 这 种 特异 的 差异 表达 谱 被 建立 ,就 可 以 用 于 自 闭 症 的 诊 
Wr, 以便 能 更 早 地 ,甚至 可 以 在 出 现 自 闭 症 临床 表现 之 前 就 对 疾病 进行 诊断 ,并 及 早 开始 干 
预 治疗 。 转 录 组 的 研究 应 用 于 临床 的 男 一 个 例子 是 可 以 将 表面 上 看 似 相 同 的 病症 分 为 多 个 
亚 型 ,尤其 是 对 原 发 性 恶性 肿瘤 ,通过 转录 组 差异 表达 谱 的 建立 ,可 以 详细 描绘 出 患者 的 生 
存 期 以 及 对 药物 的 反应 等 。 


(=) 转录 调控 网 络 


基因 表达 是 指 基因 在 生物 体内 的 转录 剪接、 翻译 以 及 转变 成 具有 生物 活性 的 蛋白 质 
分 子 之 前 的 所 有 加 工 过 程 。 人 类 基因 组 大 约 有 两 万 多 个 基因 ,但 是 在 单个 细胞 中 ,同时 表达 
的 基因 往往 只 有 几 千 甚 至 几 百 个 ,而且 很 多 基因 只 在 特定 组 织 或 发 育 阶段 表达 。 从 一 套 基 
本 不 变 的 基因 组 中 产生 出 多 元 化 的 细胞 类 型 是 由 调控 基因 活性 的 各 种 信号 途径 所 控制 。 真 
核 生 物 转录 起 始 十 分 复杂 ,往往 需要 多 种 重 昌 因子 的 协助 ,转录 因子 与 RNA 聚 合 酶 下 形成 转 
录 起 始 复 合 物 ,共同 参与 转录 起 始 的 过 程 。 作 为 基因 表达 好 | 的 
中 ， 心 。 转 录 调 控 因 子 ( transcription factors, TFs ), 也 称 之 为 反 式 作用 因子 : trans—acting factor ) 
有 序 地 结合 在 目标 基因 启动 子 ( promoter ) 序列 中 的 特殊 位 点 ,启动 基因 的 转录 和 控制 基因 
的 转录 效率 。 这 些 位 点 被 称 为 转录 因子 结合 位 点 (transcription factor binding sites, TFBSs J; 
又 被 称 为 顺 式 调控 元 件 ( cis-regulatory elements ), 其 长 度 从 几 个 到 十 几 个 碱 基 对 不 等 。 每 下 
转录 因子 的 结合 位 点 通常 都 有 特定 的 模式 ,被 称 为 模 体 ( motif )。 找 到 这 些 特 定 的 序列 片段 
对 人 研究 基因 的 转录 调控 有 痢 重 要 意义 。 


(三 ) 转录 组 测序 


基于 高 通 量 测序 平台 的 转录 组 测序 技术 使 能 够 在 单 核 蔡 酸 水 平 对 任意 物种 的 整体 转录 
活动 进行 检测 ,在 分 析 转 录 本 的 结构 和 表达 水 平 的 同时 ,还 能 够 发 现 未 知 转录 本 和 稀有 转录 
本 ,精确 的 识别 可 变 剪 接 位 点 以 及 cSNP( 编码 序列 单 核 苷 酸 多 态 性 ), 提 供 最 全 面 的 转录 组 信 
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息 。 相 对 于 传统 的 芯片 杂交 平台 ,转录 组 测序 无 需 预 先 针对 已 知 序列 设计 探 针 , 即 可 对 任意 
物种 的 整体 转录 活动 进行 检测 ,提供 更 精确 的 数字 化 信号 ,更 高 的 检测 通 量 以 及 更 广泛 的 检 
测 范围 ,是 目前 深入 人 研究 转录 组 复杂 性 的 强大 工具 。 

随 着 二 代 测 序 技术 的 发 展 ,测序 成 本 大 幅度 降低 ,大 规模 转录 组 测序 将 成 为 转录 组 人 研 
究 的 重要 方法 。 多 项 人 研究 已 经 表明 ,二 代 测 序 技术 的 应 用 ,能 有 效 改 善 诸如 EST、SAGE、 
CAGE、MPSS、PET 和 全 长 cDNA 测 序 等 传统 转录 组 研究 方法 的 结果 ,使 之 得 到 大 大 的 提升 。 
基于 转录 组 高 通 量 测序 的 种 种 技术 优势 ,此 种 技术 应 用 范围 较 广 ,主要 有 转录 本 结构 研究 
(基因 边界 鉴定 、 可 变 剪接 研究 等 ), 转 录 本 变异 研究 (如 基因 融合 、 编 码 区 SNP 人 研究 ), 非 编码 
区 域 功能 人 研究 ( Non-coding RNA 人 研究 、 microRNA 前 体 人 研究 等 ), 基 因 表 达 水 平 研究 以 及 全 新 
转录 本 发 现 。 


三 、 蛋 白质 组 信息 学 》》 


20 世 纪 90 年 代 中 期 ,在 人 类 基因 组 计划 研究 及 功能 基因 组 学 的 基础 上 ,产生 了 在 整体 水 
平 上 人 研究 细胞 内 集 白 质 的 组 成 及 其 活动 规律 的 学 科 一 一 重 日 质 组 学 ( proteomics ), SE A Ji 
组 学 以 信 日 质 组 为 研究 对 象 , 集 日 质 组 是 某 种 生物 所 能 表达 的 所 有 和 焦 日 质 , 即 包括 一 种 细胞 
乃至 一 种 生物 所 表达 的 全 部 重 日 质 ,它们 都 是 由 RNA 从 基因 那里 转录 、 蚊 辑 信 息 后 选择 性 拼 
接 和 修饰 产生 。 而 RNA 转 录 或 RNA 剪 辑 的 选择 性 拼接 和 转录 后 的 修饰 能 够 产生 比 基 因 编码 
数目 多 得 多 的 重 白 质 ,从 而 成 为 该 种 生物 巨大 的 蛋白 质 组 。 和 焦 白 质 组 信息 学 通过 对 正常 个 
体 及 病理 个 体 间 的 和 蛋 日 质 组 比较 分 析 ,找到 节 些 “疾病 特异 性 的 重 日 质 分 子 ,它们 可 成 为 新 
药物 设计 的 分 子 靶 点 ,或 者 也 会 为 疾病 的 早期 诊断 提供 分 子 标志 。 重 日 质 组 信息 学 研究 不 
仅 能 为 生命 活动 规律 提供 物质 基础 ,也 能 为 众多 种 疾病 机 制 的 前 明 及 攻克 提供 理论 根据 和 
解决 途径 。 


(一 ) 结构 蛋 日 质 组 学 


结构 蛋白 质 组 学 又 称 组 成 蛋白 质 组 学 ,是 一 种 针对 有 基因 组 或 转录 组 数据 库 的 生物 体 
或 组 织 .细胞 ,建立 其 蛋白 质 或 亚 蛋 白质 组 (或 蛋白 质 表 达 谱 ) 及 其 蛋白 质 组 连锁 群 的 一 种 全 
景 式 的 蛋白 组 学 研究 ,从 而 获得 对 有 机 体 生 命 活动 的 全 景 式 认识 。 大 规模 的 全 基因 组 测序 
计划 正 产生 越 来 越 多 的 序列 信息 ,而 理解 这 些 信 息 的 关键 是 理解 基因 产物 一 一 重 白 质 的 功 
能 。 在 后 基因 组 时 代 , 蛋 白质 的 三 维 结构 解析 是 揭示 生命 密码 的 重要 部 分 。 随 着 技术 进步 
和 大 量 来 自 公 共 机 构 和 私人 企业 的 资金 投入 ,结构 重 日 质 组 学 研究 开始 局 动 , 它 的 目标 是 采 
用 工业 化 生产 的 方式 在 基因 组 规模 去 大 量 测定 重 白 质 的 结构 。 这 将 会 改变 结构 生物 学 家 的 
研究 方式 。 蛋 日 质 结构 测定 的 流程 ,从 cDNA 的 克隆 到 数据 收集 ,大 部 分 将 实现 目 动 化 ,结构 
蛋白 质 组 学 是 实验 和 理论 计算 相 结合 的 多 学 科 交 义 的 领域 。 目 前 ,结构 蛋 昌 质 组 学 仍然 面 
临 着 许多 技术 上 的 挑战 ,这 些 挑 战 也 带 来 了 很 多 机 遇 ,结构 蛋白 质 组 学 产生 的 大 量 结构 信息 
将 是 一 笔 巨大 的 财富 , 它 将 给 制药 行业 带 来 重大 变化 。 近 年 来 ,基于 蛋 日 结构 的 合理 药物 设 
计 在 制药 行业 非常 流行 。 同 时 , 它 也 必 将 给 生物 学 领域 带 来 一 场 革 命 。 


(二 ) 药物 蛋白 质 组 学 
将 蛋白 组 学 的 概念 用 于 药物 研究 领域 ,通过 对 比 健康 状态 与 疾病 状态 的 细胞 或 组 织 能 


NIC C\ROAAATIC CS AAMI ET AD 
INFORMA! A » MOLECULA 











——————— l—————————————— 


\12 £ it 


NTRODUCTION TO BIOINFORMATICS MOLECULAR 


He A tH Peas Fe oe , FAP Z0 aE X 25] SE VS BUE E 9X 25 9] 157 r BET EA JUST UL A 
体 ,以 评价 药物 类 似 物 的 结构 与 活性 关系 ,寻找 高 活性 的 药物 ,由 此 发 展 起 来 的 一 门 学 科 称 
之 为 药物 重 日 质 组 学 。 药 物 保 日 质 组 学 在 药物 人 研发 过 程 中 起 着 极其 重要 的 作用 ,药物 生日 
质 组 学 的 重要 人 研 究 内 容 在 临床 前 包括 新 欧 和 部 的 发 现 .药物 作用 模式 、 毒 理学 研究 ,在 临床 
人 研 完 方 面包 括 疾病 特异 性 重 折 作 为 有 效 患者 选择 的 依据 和 临床 试验 的 标志 。 应 用 类 似 于 药 
物 遗 传 学 的 方法 ,按照 重 晶 质谱 来 分 类 患者 ,并 预测 药物 作用 疗效 。 重 白质 组 学 和 药物 重 白 
质 组 学 人 研 完 当 前 还 处 在 一 个 初期 发 展 阶段 ,甚至 连 定 义 还 没有 来 得 及 完善 ,相关 的 技术 手段 
及 其 配套 应 用 还 很 不 成 熟 。 但 这 个 领域 研究 之 初 ,对 基础 研究 和 实际 应 用 的 期 望 就 表现 出 
强烈 结合 的 趋 执 。 随 着 集 日 质 组 和 学、 药物 重 白 质 组 学 研究 的 兴起 ,人 们 将 在 蛋白质 水 平 上 重 
新 认识 诸如 生长 .发育 和 代谢 调控 等 生命 活动 的 规律 ,为 研究 重大 疾病 的 机 制 .疾病 诊断 、 防 
治 和 新 药 开 发 提供 重要 的 理论 基础 ,并 正在 成 为 生物 技术 药物 发 展 的 根本 动力 ,并 明显 加 快 
新 诊断 和 治疗 方法 的 开发 。 





.代谢 组 信息 学 》》 


代谢 组 学 ( metabonomics or metabolomies ) 是 效仿 基因 组 学 和 蛋白质 组 学 的 研究 思想 ,对 
生物 体内 所 有 代谢 物 进 行 定量 分 析 , 并 寻找 代谢 物 与 生理 病理 变化 相对 关系 的 研究 方式 ,是 
系统 生物 学 的 组 成 部 分 。 其 研究 对 象 大 都 是 相对 分 子 质量 1000 以 内 的 小 分 子 物 质 。 代 谢 组 
包括 组 织 细胞 代谢 组 和 系统 整体 代谢 组 。 其 中 组 织 细 胞 代谢 组 是 指 是 指 某 个 时 间 点 上 一 个 
细胞 所 有 代谢 物 的 集合 ,尤其 指 在 不 同 代 谢 过 程 中 充当 底 物 和 产物 的 小 分 子 物质 ,如 脂 质 、 
粮 和 氨基 酸 等 ,可 以 揭示 取样 时 该 细胞 的 生理 状态 ,人 类 中 有 上 万 亿 个 不 同类 型 的 细胞 , 它 
们 有 具有 潜在 不 同 的 组 织 细 胞 代谢 组 。 基 因 和 蛋白质 只 是 为 细胞 发 生 的 活动 做 准备 ,活动 中 
大 部 分 实际 上 是 发 生 在 代谢 物 上 ,如 信号 转 导 、 能 量 转移 细胞 间 通 信和 都 受 代谢 物 调 控 。 进 
一 步 说 ,基因 和 和 集 日 表达 紧密 相连 ,但 代谢 物 行为 更 密切 地 反映 出 细胞 所 处 的 环境 ,该 环境 
依赖 于 细胞 所 摄取 的 营养 状况 ,所 接触 的 药物 和 污染 物 以 及 其 他 影响 细胞 健康 的 外 在 因子 
情况 。 也 可 以 这 么 说 ,基因 组 学 和 重 日 质 组 学 只 是 告诉 人 们 细胞 中 可 能 发 生 的 行为 ,而 组 织 
细胞 组 学 告诉 人 们 细胞 实际 中 所 发 生 的 行为 。 而 组 织 细胞 代谢 组 学 是 研究 生物 样品 ,尤其 
EPK UR .唾液 和 血液 中 的 代谢 物 谱 ( 主 要 是 指 含 有 哪些 代谢 物 , 丰 度 和 分 布 状况 等 ) 变 化 规律 
的 新 学 科 。 


(一 ) 疾病 代谢 组 学 


疾病 代谢 组 学 作为 应 用 驱动 的 新 兴 科 学 ,已 在 微生物 和 植物 研究 .药物 毒性 和 机 制 研 
FI ,疾病 诊断 和 动物 模型 .基因 功能 的 阐明 等 领域 获得 了 较 广 泛 的 应 用 ,与 疾病 相关 的 代谢 
组 学 方法 应 用 人 钱 究 是 目前 代谢 组 学 研究 的 热点 之 一 ,广泛 应 用 于 病变 标志 物 的 发 现 ,疾病 
的 诊断 .治疗 和 预后 判断 。 任 何 疾病 的 发 生 和 发 展 都 会 影响 机 体 代 谢 ,从 而 导致 体液 中 代谢 
物质 发 生 显 考 变化 ,通过 比较 机 体 生理 与 疾病 状态 ,甚至 是 同一 疾病 不 同 分 型 的 代谢 物 的 不 
Ii] ,将 能 找到 与 疾病 诊断 及 分 型 相关 的 标志 性 代谢 物 , 从 而 发 现 表 征 这 些 疾病 的 化 学 特征 模 
式 ,代谢 组 学 正好 适应 这 一 发 展 趋势 。 | 

生物 机 体 的 代谢 在 正常 情况 下 处 于 一 种 动态 的 平衡 中 ,而 当 机 体 患 病 或 出 现 某 种 病变 ， 
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的 血液 ` 尿 液 或 其 他 组 织 液 发 生 一 定 的 变化 。 因 为 机 体 的 正常 生理 活动 需要 通过 体内 的 各 
个 循环 系统 的 平衡 协作 而 得 到 保证 ,包括 血液 循环 、 尿 的 排泄 。 对 尿 液 和 血液 等 体液 代谢 组 
进行 检测 和 分 析 ,就 有 可 能 对 疾病 从 发 病 到 病情 不 断 变化 的 整个 过 程 进行 了 解 和 认识 ,就 有 
可 能 发 现 与 疾病 发 生 相关 的 生物 标志 物 并 认识 相关 的 病理 发 生机 制 ,就 可 以 对 疾病 在 其 发 
病 之 前 或 发 病 之 初 进行 预防 \ 诊 断 和 治疗 ,或 者 根据 疾病 不 同 阶段 的 特征 进行 个 性 化 的 治 
疗 ,达到 更 好 的 治疗 效果 。 


(二 ) 药物 代谢 组 学 


药物 代谢 组 学 ( pharmacometabonomics ) 是 研究 药物 作用 于 细胞 靶 分 子 之 后 所 形成 的 代 
谢 产 物 的 分 子 特 征 的 科学 。 从 人 类 组 织 及 体液 ,如 汗液 .血液 、. 尿 液 等 这 些 人 类 生命 过 程 代 
谢 物 质 中 药物 作用 过 程 中 的 代谢 物 分 子 的 分 析 可 以 推断 药物 作用 于 划分 子 的 过 程 , 用 于 并 
述 药物 作用 的 化 学 机 制 。 不 同 于 传统 的 药物 代谢 动力 学 ,药物 代谢 组 学 不 仅仅 关注 药物 分 
子 本 身 在 作用 于 靶 分 子 后 的 代谢 产物 ,还 关注 药物 与 靶 分 子 和 非 靶 分 子 作用 后 的 代谢 产物 ， 
以 及 这 些 产 物 之 间 以 及 它们 与 无 药物 作用 的 代谢 产物 发 生化 学 反应 之 后 的 产物 。 
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当前 生物 信息 学 研究 的 热点 





Section 3 The hotspot of current bioinformatics research 


自从 1987 年 出 现 bioinformatics 这 一 词汇 以 来 ,生物 信息 学 的 研究 任务 随 着 科研 和 现实 需 
要 的 变化 而 几经 更 迭 。 当 前 ,一 般 认 为 ,生物 信息 学 主要 是 一 门 研究 生物 学 系统 和 生物 学 过 
程 中 的 信息 流 的 综合 系统 科学 ,通过 它 独 特 的 桥梁 作用 和 整合 作用 ,使 我 们 能 够 从 各 生物 学 
科 中 众多 分 散 的 观测 资料 中 获得 对 生物 学 系统 和 生物 学 过 程 的 运作 机 制 的 理解 ,最 终 达 到 
自由 应 用 于 相关 实践 的 目的 。 例 如 ,就 疾病 而 言 ,生物 信息 学 就 是 要 系统 地 理解 导致 机 体 功 
能 异常 的 生物 机 制 并 从 而 得 出 科学 的 治疗 方案 ; 就 生物 演化 而 言 ,生物 信息 学 就 是 要 系统 地 
解释 生物 界 演化 的 从 微观 分 子 水 平 到 宏观 形体 功能 水 平 的 根本 原则 ,从 而 使 人 类 更 好 地 认 
识 自己 在 自然 界 中 的 地 位 ,科学 地 认识 和 改造 人 类 的 未 来 。 因 此 与 以 往 相 比 ,生物 信息 学 无 
论 从 认识 水 平 上 还 是 从 实践 水 平 上 都 开创 了 一 种 斩 新 的 模式 。 


一 、 新 一 代 测 序数 据 的 生物 信息 学 分 析 》》 


DNA 测 序 ( DNA sequencing ) 作为 一 种 重要 的 实验 技术 ,在 生物 学 :研究 中 有 痢 广 泛 的 应 用 。 
早 在 DNA 双 螺旋 结构 ( Watson and Crick,1953 ) 被 发 现 后 不 久 就 有 人 报道 过 DNA 测 序 技术 ,但 
是 当时 的 操作 流程 复杂 , 没 能 形成 规模 。 随 后 在 1977 年 Sanger 发 明了 具有 里 程 碑 意义 的 末端 
终止 测序 法 ,同年 A.M.Maxam 和 W.GCilbert 发 明了 化 学 降解 法 。Sanger 法 因为 既 简 便 又 快速 ,并 
经 过 后 续 的 不 断 改良 ,成 为 迄今 为 止 DNA 测 序 的 主流 。 然 而 随 着 科学 的 发 展 , 传 统 的 Sanger 测 
序 已 经 不 能 完全 满足 研究 的 需要 ,对 模式 生物 进行 基因 组 重 测序 以 及 对 一 些 非 模式 生物 的 基 
因 组 测序 , 都 需要 费用 更 低 Bi fg UH eg .速度 更 快 的 测 序 技术 ` 新 一 代 测 序 技 术 ( next-generation 
sequencing ) 应 运 而 生 。 新 一 代 测 序 技术 的 核心 思想 是 边 合 成 边 测 序 ( sequencing by synthesis ), 
即 通过 捕捉 新 合成 的 末端 标记 来 确定 DNA 的 序列 , 现 有 的 技术 平台 主要 包括 Roche/454 FLX, 
Illumina/Solexa Genome Analyzer 和 Applied Biosystems SOLID System. 

随 着 高 通 量 新 一 代 测 序 技术 的 快速 发 展 , DNA 测 序 ( DNA-seq ), RNAI RF ( RNA-seq ) 
已 成 为 基因 组 转录 组 分 析 的 新 的 重要 手段 ,也 为 生物 信息 学 研究 开创 了 颖 新 的 局 面 。 新 一 
代 测 序 可 一 次 性 获得 数 百 万 甚至 数 十 亿 的 序列 数据 信息 ,开发 能 够 快速 鉴定 出 不 同 组 织 \ 不 
同 发 育 阶段 .不 同 疾 病状 态 下 的 转录 本 及 其 表达 差异 的 生物 信息 学 理论 和 方法 ,为 基于 新 一 
代 测 序 技术 的 复杂 疾病 研究 提供 有 力 工 具 , 是 当前 生物 信息 学 研究 的 重要 任务 之 一 。 
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二 、 非 编码 区 序列 分 析 与 功能 识别 >>> 


非 编 码 DNA( 或 称 "垃圾 DNA”), 是 指 不 包含 制造 蛋白 质 的 指令 ,或 是 只 能 制造 出 无 转 
译 能 力 RNA 的 DNA 订 列 。 此 类 DNA 在 真 核 生物 的 基因 组 中 占 大 多 数 。 有 很 长 一 段 时 间 科学 
家 们 没有 认识 到 这 些 非 编码 的 作用 ,因此 ,这 些 重复 的 DNA 片 段 被 冠 以 垃圾 DNA 的 称号 。 随 
着 时 间 推 移 , 科 学 家 们 对 垃圾 DNA 的 认识 逐渐 深入 , 慢 慢 地 发 现 其 实 很 多 非 编码 DNA 有 着 其 
独特 的 作用 ,它们 在 基因 剪 切 等 方面 起 重要 的 作用 。 

科学 家 们 已 经 发 现 : 垃圾 ”DNA 的 功能 之 一 就 是 调节 基因 的 活动 ,如 同一 道 指令 一 样 ， 
控制 者 基因 ,一 些 控制 基因 开 和 关 的 特殊 重 白 (转录 因子 能 特异 识别 基因 附近 的 非 编 码 " 垃 
圾 ”DNA, 通 过 与 它们 相互 作用 参与 基因 的 抑制 与 激活 。 科 学 家 还 发 现 ,大 多 数 基因 的 开启 
和 关闭 是 由 附近 的 “垃圾 ”DNA 控 制 的 。 它 们 就 像 是 基因 的 “分 子 ” 开 关 , 调 节 基 因 的 活动 。 
许多 “垃圾 ”DNA 序 列 的 变化 与 复杂 疾病 如 关节 炎 、 共 济 失调 症 等 的 发 生息 息 相 关 。 不 同 个 
体 对 药物 的 反应 、 对 疾病 易 感 性 的 差异 在 很 多 情况 下 也 是 由 一 些 特殊 的 “垃圾 "DNA 调节 的 。 
甚至 一 些 科 学 家 猜想 : 可 能 正 是 “垃圾 ”DNA 造 成 了 人 类 个 体 间 的 差异 。 氨 今 为 止 ,细胞 中 
的 rRNA 、tRNA snRNA, asRNA , snoRNA, miRNA, 、piRNA 都 非 编 码 “HR” DNA. "El 
参与 到 基因 活化 基因 沉默 .基因 印记 、 剂 量 补偿 、 蛋 白 合 成 与 功能 调节 代谢 调控 等 众多 生 
物 学 过 程 中 。 

在 过 去 十 年 里 ,与 复杂 疾病 关联 的 微小 RNA( microRNA, miRNA ) 的 研究 取得 了 不 少 成 
条 。miRNA 是 一 类 非 编 码 的 小 RNA 人 分子, 其 长 度 约 22 个 核 苷 酸 ( nucleotide ,人 简称 nt ), 通 过 和 
其 靶 基 因 3” 非 翻译 区 ( 3”untranslated region, fal #3’ UTR ) 结合 引导 RNA 诱 导 的 沉默 复合 
体 (RNA-induced silencing complex, fa] FKRISC ) 促进 其 靶 mRNA 的 降解 或 阻碍 其 靶 mRNA 的 
翻译 。 大 量 研究 表明 miRNA 可 以 通过 精细 地 调节 基因 的 转录 表达 进而 参与 细胞 的 发 育 、 分 
化 .增殖 、 凋 亡 以 及 应 激 反 应 等 生物 学 过 程 。 研 究 人 员 发 现 其 在 复杂 疾病 的 发 生发 展 过 程 中 
起 着 巨大 的 作用 ,其 功能 异常 能 够 导致 各 种 人 类 复杂 疾病 (如 癌症 、 心 血管 疾病 等 ) 的 发 生 ， 
这 使 miRNA 成 为 疾病 诊断 、 预 后 的 新 的 生物 学 标记 ( biomarker ), 并 为 进一步 揭示 复杂 疾病 
的 发 病 机 制 提 供 了 新 的 方向 。 随 着 对 复杂 疾病 关联 的 非 编 码 RNA 人 研究 的 深入 ,近年 来 的 研 
究 逐 渐 转 向 长 链 非 编 码 RNA( long noncoding RNA, IncRNA )。lncRNA 是 一 类 转录 本 长 度 超 
过 200nt 的 RNA 分 子 ,它们 并 不 编码 蛋白 ,而 是 以 RNA 的 形式 在 多 种 层面 上 调控 基因 的 表达 
水 平 ,如 表 观 遗传 调控 转录 调控 和 调控 和 蛋 日 活性 ,改变 RNA 的 剪 切 模式 以 及 转录 后 调控 等 。 
目前 研究 所 展现 出 的 IncRNA 繁 多 的 分 子 生物 学 功能 ,为 人 们 研究 调控 领域 提出 了 加 新 的 视 
角 。lncRNA 通 过 与 DNA、RNA 和 借 白 质 的 相互 作用 ,在 生命 活动 调控 网 络 中 扮演 着 十 分 重要 
的 角色 。 除 了 在 基因 表达 调控 方面 发 挥 着 十 分 重要 的 作用 , InceRNA 与 物种 进化 .胚胎 发 育 、 
物质 代谢 以 及 复杂 s 疾 病 的 发 生 等 都 有 着 紧密 的 联系 。 


三 .整合 信息 组 学 >> 


当前 ,由 各 种 “omics” 组 学 技术 ,如 基因 组 学 、 转 录 组 学 、 和 蛋白 质 组 学 和 代谢 组 学 等 技术 ， 
积累 了 大 量 的 实验 数据 。 我 们 面临 的 挑战 是 如 何 从 这 些 组 学 数据 中 ,利用 已 有 的 生物 信息 
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学 的 技术 手段 ,在 新 的 系统 层次 、 多 水 平 . 多 途径 来 了 解 生命 过 程 。 鉴 于 此 ,人 们 希望 形成 一 
个 生物 信息 学 的 特定 领域 ,以 便 解 决 这 些 很 重要 的 问题 ,这 就 是 “整合 信息 组 学 ”。 

用 系统 生物 学 的 观点 ,整合 各 类 “omics” 组 学 信息 ,发 展 系统 整合 语言 ,提出 细胞 与 组 
织 乃 至 人 体 的 生理 和 病理 的 数字 化 模型 ,运用 系统 整合 语言 发 展 与 中 心 法 则 有 关 的 模型 与 
假说 ,并 在 实验 和 临床 中 加 以 验证 ,提出 药物 与 靶 点 相互 作用 及 其 网 络 作 用 的 模型 与 假说 ， 
并 在 实验 和 临床 中 进行 验证 ,为 重大 疾病 的 防治 .诊治 提供 理论 依据 。 随 着 基因 组 研究 的 完 
成 ,以 及 向 功能 基因 组 研究 的 转化 ,将 基因 组 .转录 组 、 蛋 白质 组 以 及 比较 基因 组 学 的 数据 纤 
合集 成 ,构建 基因 调控 网 络 ,从 系统 的 角度 来 研究 生物 学 ,为 系统 生物 学 的 研究 提供 工具 ,成 
为 生物 信息 学 的 研究 重点 。 此 外 ,新 一 代 测 序 等 高 通 量 技术 的 应 用 ,产生 海量 的 基因 表达 数 
据 , 这 些 数据 中 隐 含 了 基因 表达 控制 的 信息 ,对 这 些 的 分 析 和 挖掘 ,以 及 数据 的 标准 化 已 成 
为 生物 信息 学 的 全 究 热点 。 


四 、 转 化 医学 和 临床 生物 信息 学 》》) 


转化 医学 (translational medicine ), 又 被 称 作 转化 研究 (translational research ), 是 近年 来 
国际 医学 科学 领域 出 现 的 新 概念 ,是 基因 组 和 生物 信息 学 革命 的 时 代 产 物 ,通过 研究 可 诊断 
及 监测 人 类 疾病 的 新 参数 一 一 生物 标志 物 ,为 开发 新 药品 、 新 诊断 方法 、 新 治疗 方法 开辟 出 
一 条 具有 革命 性 意义 的 新 途径 。 转 化 医学 研究 的 主要 任务 是 ,将 基础 赋 究 所 取得 的 成 采 尽 
快 转化 为 临床 问题 的 解决 方法 ; 将 基础 研究 获得 的 知识 成果 快速 转化 为 临床 上 的 治疗 新 方 
法 ,以 及 把 临床 医疗 的 实际 情况 反馈 给 实验 室 并 以 此 来 完善 相关 课题 的 基础 研究 并 进一步 
开展 新 的 研究 的 一 种 双向 过 程 , 即 “ 从 实验 室 到 病房 (bench to bedside ) 和 “从 病房 到 实验 
室 ( bedside to bench )” XX [n]38 38 WE , fa] PKA B2B « 

临床 生物 信息 学 的 目的 是 应 用 生物 信息 学 知识 和 技术 来 帮助 诊断 治疗 .预防 和 控制 疾 
病 , 以 及 发 展 化 学 的 、 结 构 的 和 生化 的 方法 来 应 用 于 临床 研究 。 瘤 症 研 究 中 ,在 瘤 症 发 生 的 
不 同 阶段 ,如 起 始 持续 和 发 展 时 期 ,生物 信息 学 工具 被 用 于 检测 儿 种 瘤 症 的 生物 标记 。 根 
据 NCI 的 解释 : 生物 标记 的 定义 是 细胞 的 .生化 的 、 分 子 的 (遗传 和 表 观 遗传 ) 改 变 。 有 了 生 
物 标记 ,一 个 正常 的 .异常 的 或 简单 的 生物 学 过 程 就 可 以 被 识别 或 监测 。 生 物 标记 可 以 通过 
生物 媒介 ,如 组 织 、 细 胞 或 流体 来 衡量 ,也 可 用 于 评估 癌症 的 早期 诊断 、 风 险 、 癌 症 分 类 和 预 
断 癌 症 病情 。 





五 生物 信息 学 与 新 药 研究 5 


当前 生物 信息 学 的 一 个 重要 任务 是 辅助 药物 设计 和 新 药 人 研发 。 新 药 饶 究 和 开发 是 一 项 
耗资 巨大 的 工程 。 过 去 ,每 一 种 新 药 从 研发 到 投入 市 场 平均 需要 10~15 年 ,耗费 数 十 亿美 元 。 
而 现在 ,生物 信息 技术 为 药物 研究 设计 提供 了 轿 新 的 研究 思路 和 手段 ,生物 信息 学 所 提供 的 
数据 和 软件 可 以 指导 对 药物 作用 靶 位 的 选 定 和 药物 分 子 的 设计 。 这 种 方法 有 快速 高 效 的 
特点 , 它 的 研究 范围 包括 大 分 子 结构 功能 的 模拟 和 预报 药物 分 子 与 大 分 子 结合 的 模拟 、 生 
物 分 子 在 指定 细胞 的 分 布 和 位 点 等 。 生 物 信息 学 已 经 在 新 药 设 计 的 各 个 环节 ,如 初始 阶段 、 
筛选 及 药物 设计 ,以 及 新 药 开 发 阶段 发 挥 着 越 来 越 重要 的 作用 。 利 用 强大 的 计算 工具 ,新 药 
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开发 平均 费用 时 间 都 大 大 降低 了 。 

传统 药物 研究 中 ,可 供 筛 选 的 化 合 物 数量 有 限 ,新 药 发 现 的 速度 很 慢 ,耗资 巨大 ,成 功率 
也 很 低 。 生 物 信 息 学 在 第 选 及 药物 设计 中 的 应 用 ,给 药物 发 现 市 来 了 新 的 机 遇 。 在 “人 类 
基因 组 计划 ”完成 后 ,药物 第 选 有 了 很 大 发 展 。 主 要 是 运用 计算 机 技术 ,以 药物 靶 标 分 子 三 
维 结构 和 和 蛋白质 品 体 结 构 为 基础 ,对 含有 大 量化 合 物 结构 的 数据 库 进 行 模拟 “多 选 ,迅速 高 
效 地 发 现 先导 化 合 物 及 其 新 用 途 。 这 种 药物 设计 的 方法 是 根据 靶 标 分 子 与 药物 分 子 相 结合 
的 活性 部 位 的 几何 形状 和 化 学 特征 ,设计 出 与 其 相 匹 配 的 具有 新 新 结构 的 药物 分 子 。 使 用 
这 种 方法 需 建立 大 量化 合 物 的 三 维 结构 数据 库 ,然后 将 库 中 的 分 子 分 别 与 靶 标 分 子 结合 , 通 
过 不 断 优化 小 分 子 化 合 物 的 位 置 以 及 分 子 内 部 柔性 键 的 二 面 角 ,寻找 小 分 子 化 合 物 与 靶 标 
大 分 子 作 用 的 最 佳 构象 ,计算 其 相互 作用 及 结合 能 。 在 库 中 所 有 分 子 均 完成 特异 结合 计算 
之 后 , 即 可 以 从 中 找 出 与 靶 标 分 子 结合 的 最 佳 分 子 。 

生物 信息 学 不 仅 有 助 于 药物 靶 基 的 发 现 .药物 设计 与 药物 烯 选 ,而 且 还 有 利于 药物 开发 
的 临床 研究 。 这 主要 表现 在 单 核 车 酸 多 态 ( SNP )、 药 物 基因 学 ( pharmacogenomics ) 和 药物 遗 
传 学 的 研究 及 结果 的 应 用 。 例 如 ,通过 SNP 与 药物 反应 的 相关 分 析 能 够 显示 出 在 不 同 个 体 
的 药物 作用 目标 或 药物 代谢 途径 中 存在 某 个 酶 的 差异 ,揭示 个 体 的 基因 组 多 态 与 疾病 治疗 
药物 反应 之 间 的 关系 。 这 就 让 我 们 可 以 预测 出 哪 种 药 或 疫苗 对 哪些 携带 特殊 基因 型 的 个 人 
最 有 效 , 因 此 医生 就 可 以 根据 不 同 患 者 对 药物 的 不 同 反 应 ,进行 个 体 化 给 药 与 个 体 化 治疗 ， 
提高 治疗 效果 ,增加 临床 试验 的 成 功率 ,促进 个 体 化 药物 的 开发 。 

综 上 ,复杂 疾病 的 治疗 ,逐渐 走出 实验 室 , 迅 速 进入 转化 研究 阶段 ,其 重要 标志 ,就 是 依 
据 基因 组 学 或 蛋白 组 学 的 临床 研究 。 复 杂 疾 病 的 发 生 与 发 展 是 一 个 多 基因 参与 多 步骤 、 复 
林 的 生物 学 过 程 ,仅仅 依据 病理 类 型 临床 分 期 以 及 患者 年 龄 行为 状态 等 临床 特征 选择 治 
疗 方法 以 远 远 达 不 到 个 体 化 数字 化 治疗 的 要 求 。 通 过 生物 信息 学 的 方法 研究 复杂 疾病 的 组 
学 谱 , 全 面 详尽 地 了 解 肿瘤 的 生物 学 特性 来 指导 临床 治疗 ,是 未 来 医疗 的 必由之路 。 

地 庸 置疑 ,以 DNA 和 和 集 昌 质 序列 为 源头 的 生物 信息 学 ,已 经 显 着 改变 了 传统 实验 数据 的 
处 理 手段 ,变革 了 基础 生命 科学 的 运作 方式 ,推进 了 应 用 生物 技术 及 相关 学 科 的 发 展 速度 。 
随 着 生物 信息 学 研究 的 不 断 深入 和 扩展 ,势必 带 来 整个 生物 领域 的 重大 革命 ,尤其 对 人 类 基 
因 疾 病 的 诊断 和 治疗 以 及 药物 开发 必 将 产生 深远 影响 。 
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SEQUENCE ALIGNMENT AND ANALYSIS 
OF SEQUENCE CHARACTERISTICS 


随 着 近年 来 生物 实验 技术 和 方法 的 快速 发 展 ,通过 实验 获取 的 RNA、DNA 和 有 蛋 和 白 
质 序列 数据 以 前 所 未 有 的 速度 增长 。 世 界 各 国 的 生物 学 家 和 计算 机 学 家 合作 通过 对 
这 些 序列 数据 的 分 类 、 收 集 和 整理 构建 了 基因 组 数据 库 、 核 酸 和 蛋白 质 一 级 结构 序列 
数据 库 以 及 在 此 基础 上 构建 特殊 类 型 的 核酸 和 蛋白 质 序列 数据 库 。 对 各 种 生物 序列 
进行 分 析 是 生物 信息 学 最 主要 的 研究 内 容 之 一 , 它 可 以 分 为 两 个 主要 部 分 : 一 是 序列 
之 间 的 比较 分 析 。 二 是 序列 组 成 和 特征 分 析 。 序 列 比 较 的 基本 操作 是 比 对 ,将 未 知 序 
列 同 已 知 序列 进行 相似 性 比较 是 一 种 强 有 力 的 研究 手段 ,从 序列 的 片段 测定 拼接、 基 
因 的 表达 分 析 , 到 RRNA 和 和 蛋白质 的 结构 功能 预测 ,物种 亲缘 树 的 构建 都 需要 进行 生物 
分 子 序 列 的 相似 性 比较 。 生 物 信 息 学 中 的 序列 比 对 算法 的 研究 具有 非常 重要 的 理论 
意义 和 实践 意义 。 而 对 DNA 序 列 和 有 蛋白质 序列 进行 序列 特征 分 析 , 能 够 从 分 子 层面 上 
解读 基因 的 结构 特点 ,了 解 与 基因 表达 调控 相关 的 信息 ,明确 DNA 序 列 与 蛋白 质 序 列 
之 间 的 编码 关系 ,为 进一步 揭示 基因 的 结构 和 功能 ,研究 蛋白 质 结 构 和 功能 之 间 的 关 
系 提供 理论 依据 。 











第 一 三 
获取 DNA、RNA 和 蛋白 质 序列 





Section 1 DNA,RNA and Protein Sequence Information Resources 


一 、DNA 序 列 的 获取 >> 


(一 ) 国际 核酸 序列 数据 库 协 会 


1988 年 由 国际 上 三 大 主要 的 公共 核酸 序列 数据 库 共同 建立 了 国际 核酸 序列 数据 库 协会 
( international nucleotide sequence database collaboration, INSDC, http: /Avww.insde.org/ ) (图 1-1 ), 
这 三 个 数据 库 分 别 是 位 于 美国 马里 兰州 的 贝 塞 斯 达 的 美国 国家 生物 技术 信息 中 心 ( NCBI) 
的 GenBank, 位 于 英国 的 欧洲 分 子 生物 学 研究 中 心 (EMBL ) 的 ENA 和 日 本 的 DNA 数 据 库 
( DDBJ )。 三 大 核酸 数据 库 之 间 各 目 搜 集 世 界 各 国有 关 实 验 室 和 测序 机 构 所 发 布 的 序 re 
每 天 将 新 测定 或 更 新 的 数据 进行 交换 ,实现 了 全 球 范围 内 核酸 序列 的 同步 更 新 和 交换 共 
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International Nucleotide Sequence Database Collaboration 


e The International Nucleotide Sequence Databases (INSD) have been developed and 
maintained collaboratively between DDBJ, ENA, and GenBank for over 18 years 

The INSDC advisory board, the International Advisory Committee , is made up of 
members of each of the databases’ advisory bodies. At their most recent meeting. 
members of this committee unanimously endorsed and reaffirmed the existing data- 
sharing policy of the three databases that make up the INSDC, which is stated below 
Individuals submitting data to the international sequence databases should be aware of 


INSDC policy 


How to submit data 





For full details of how to submit data to the databases, please select a collaborating 
partner 


DDBJ, ENA. GenBank 
The INSDC Feature Table Definition Document is available here 


INSIDE 





图 1-1 INSDC 的 主页 
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1. GenBank GenBank ( http: //www.ncbi.nlm.nih.gov/genbank/ ) 是 由 隶属 于 美国 国立 卫生 院 
( national institute of health, NIH ) 的 美国 国立 生物 技术 信息 中 心 (national center for biotechnology 
information, NCBI ) 建立 的 国际 权威 核酸 序列 数据 库 。NCBI 构 建 的 GenBank 数 据 库 序列 来 
自 于 发 现 者 提交 的 序列 批量 提交 的 表达 序列 标签 ( expressed sequence tag, EST )、 基 因 组 测 
序 序列 ( genome survey sequences, GSS ) 和 其 他 测序 中 心 提交 的 高 通 量 数据 以 及 美国 专利 商 
标 局 提供 的 已 发 表 的 专利 序列 数据 。 截 止 到 2010 年 , GenBank 共 收 录 了 超过 38 万 个 物种 的 
198 156 212 条 序列 ,总 长 度 超过 了 3000 多 亿 个 碱 基 。 图 1-2 总 结 了 从 1982~2008 年 CenBank 中 
DNA 序 列 和 碱 基数 目的 变化 情况 。 除 了 序列 信息 以 外 , GenBank 还 收录 了 相应 的 参考 文献 
记录 和 生物 学 注释 。 


100 


Sequences( millions ) 
= 
Base Pairs of DNA( billions ) 


eum Base Pairs 
~= Sequences 





1982 1986 1990 1994 1998 2002 2006 


图 1-2 GenBank 中 DNA 序 列 和 碱 基数 量 的 变化 情况 
来 源 于 : http: /Aww.ncbi.nim.nih.gov/genbank/genbankstats.htm 1 


(1 )CenBank 数 据 库 的 组 织 结构 

1 ) CenBank 数 据 库 中 的 序列 文件 和 序列 条 目 

完整 的 CenBank 数 据 库 包括 序列 文件 ,索引 文件 以 及 其 他 有 关 文 件 。 索 引文 件 是 根据 
数据 库 中 作者 .参考 文献 等 子 段 建立 的 ,用 于 数据 库 查 询 。GenBank 中 最 常用 的 是 序列 文件 。 
序列 文件 的 基本 单位 是 序列 条 目 ,包括 核 苷 酸 碱 基 排 列 顺序 和 注释 两 部 分 。 序 列 文件 由 单 
个 序列 条 目 组 成 ,每 个 条 目 是 一 个 纯 文本 文件 ,序列 条 目 由 字段 组 成 ,每 个 字段 由 关键 字 起 
始 , 后 面 为 该 字段 的 具体 说 明 。 有些 字 段 又 分 在 干 子 字段 ,以 次 关键 字 或 特性 表 说 明 符 开始 。 
每 个 序列 条 目 以 双 斜 杠 “//” 作 结束 标记 。 序 列 条 目的 格式 非常 重要 ,关键 字 从 第 一 列 开 始 ， 
次 关键 字 从 第 三 列 开始 ,特性 表 说 明 符 从 第 五 列 开始 。 每 个 字段 可 以 占 一 行 , 也 可 以 占 若 
干 行 。 夺 一 行 中 写 不 下 时 ,继续 行 以 空格 开始 。 每 条 GenBank 序 列 条 目的 关键 字 包 括 代 码 
( LOCUS ), 说 明 ( DEFINITION ), 编 号 ( ACCESSION ), 标 识 符 ( NID ), 关键 词 ( KEYWORDS ), 
数据 来 源 ( SOURCE ), 文 献 ( REFERENCE ), 特 性 表 ( FEATURES ), 碱 基 组 成 ( BASE COUNT ) 
和 排列 顺序 ( ORIGIN )。 
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代码 行 是 该 序列 条 目的 标记 ,或 者 说 标识 符 , 蕴 涵 这 个 序列 的 功能 。 其 中 ,检索 号 是 唯 
一 的 ,不 可 重复 的 。 该 字段 还 包括 其 他 相关 内 容 如 序列 长 度 、 类 型 . 众 数 以 及 录入 日 期 等 ; 说 
明 字 有 段 是 关于 这 一 序列 的 简单 描述 ,用 以 总 结 记录 的 生物 学 意义 ; 编号 字段 具有 唯一 性 和 永 
久 性 ,在 文献 中 引用 这 个 序列 时 ,应 该 以 此 编号 为 准 ; 核酸 标识 符 提 供 了 序列 信息 的 当前 版 
本 ; 关键 词 字 段 由 该 序列 的 提交 者 提供 ,包括 该 序列 的 基因 产物 以 及 其 他 相关 信息 ; 数据 来 
源 字 段 说 明 该 序列 是 从 何 种 生物 体 、 何 种 组 织 得 到 的 ; 次 关键 字 种 属 ( ORGANISM ) 指出 该 
生物 体 的 分 类 学 地 位 ,如 人 、 真 核 生物 等 ; 文献 字段 说 明 该 序列 中 的 相关 文献 .包括 作者 、 题 
目 及 期 刊 名 称 等 ,以 次 关键 词 列 出 。 该 字段 中 还 列 出 医学 文献 摘要 数据 库 MEDLINE 的 代码 。 
该 代码 实际 上 是 个 网 络 链接 指针 ,点 击 它 可 以 直接 调用 上 述 文 献 摘 要 。 一 个 序列 可 以 有 和 多 
篇 文献 ,以 不 同 序号 表示 ,并 给 出 该 序列 中 的 哪 一 部 分 与 文献 有 关 ; 特性 表 直 接 给 出 了 记录 
的 生物 学 背景 知识 ,记录 中 的 一 整套 注释 有 助 于 快速 抽取 相关 生物 学 信息 。 特 性 表 详 细 地 
描述 了 合法 的 特性 (允许 使 用 的 注释 ), 以 及 这 些 特性 的 允许 限制 词 ,如 果 这 些 注释 仅仅 是 推 
测 或 是 计算 得 到 的 ,其 可 信和 度 降 低 。 同 时 特性 表 具 有 特定 的 格式 ,用 来 详细 描述 序列 特性 。 
特性 表 中 这 有 “/db-xref/ ”标志 的 字符 可 以 连接 到 其 他 数据 库 ,此 外 还 对 翻译 所 得 的 信号 肽 
以 及 最 终生 日 质 产物 进行 和 测 要 说 明 。 在 特性 表 中 ,来 源 特性 是 唯一 一 个 必须 在 所 有 GenBank 
记录 中 出 现 的 特性 ,大 多 数 情 况 下 ,一 个 记录 只 能 有 一 个 来 源 特性 ,并 带 有 ‘/organism’ 限 
定 词 ,在 CenBank 注 释 的 特性 表 中 出 现 的 关键 字 及 其 意义 见 表 1-1 ; 碱 基 组 成 是 碱 基 含 量 字 
段 ,计算 出 不 同 碱 基 在 整个 序列 中 出 现 的 次 数 ,给 出 序列 中 的 碱 基 组 成 ; GenBank 数 据 库 记 
录 以 ORIGIN 行为 序列 的 引导 行 , 指 出 了 序列 第 一 个 碱 基 在 基因 组 中 的 可 能 位 置 ,最 后 列 出 
全 部 的 碱 基 序 列 , 以 双 斜 杜 “//” 结 束 。 


表 1-1 特性 表 中 的 关键 字 及 其 意义 


关键 字 Bx 关键 字 意义 
3’ UTR 3” FERK modified base 修饰 过 的 碱 基 
5’ UTR 5” 非 翻 译 区 mRNA 信使 RNA 
—10_signal -10 信和 号 mutation 突变 
-35 signal -35 信号 rRNA 核糖 体 RNA 
CAAT_signal CAAT 信 号 tRNA 转运 RNA 
CDS 编码 序列 , 含 终 止 密码 子 polyA_signal 多 聚 A 信号 
enhancer 增强 子 polyA_site A WE ATA 
exon 外 显 子 prim_transcript 初始 转录 码 
GC_signal GC 信号 promotor 启动 子 
gene 已 命名 的 基因 序列 protein_bind 人 入 白质 结合 位 点 
intron 内 含 子 rep_origin 复制 起 点 
LTR 长 终端 重复 序列 repeat_region 重复 区 
mat_peptide 翻译 后 被 修饰 的 序列 ,不 含 | repeat unit 重复 单元 

终止 密码 子 

mis_binding 错 结合 点 satellite 卫星 片段 
misc_feature 其 他 性 状 sig_peptide 信和 号 肽 
misc_RNA 其 他 RNA TATA_signal TATA 信号 
mis_signal 其 他 信和 号 terminator 终端 子 
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2 ) GenBank 数 据 库 中 的 子 库 


GenBank 数 据 库 中 的 序列 记录 可 以 划分 为 11 个 子 库 ( BCT, INV, MAM, PHG, PLN, PRI, 
ROD, SYN, UNA, VRL, VRT ) 和 7 个 高 通 量子 库 ( ENV, EST, GSS, HTC, HTG, STS, TSA )。 
子 库 的 划分 可 以 把 数据 库 查询 限定 在 某 一 特定 部 分 加 快 了 查询 速度 。 同 时 ,基因 组 计划 快 
速 测序 得 到 的 大 量 序列 尚未 加 以 注释 ,将 它们 单独 分 类 ,有 利于 数据 库 查询 和 搜索 。 表 1-2 
中 显示 了 这 些 子 库 中 碱 基 的 数目 和 增长 趋势 。 同 时 , GenBank 数 据 库 中 全 基因 组 测序 数据 
也 在 不 断 的 增加 ,现在 已 经 有 超过 1200 种 细菌 和 古 细菌 及 460 多 种 疹 椎 动物 的 全 基因 组 拼接 


数据 。 





TSA 
ENV 
PAT 
BCT 
VRL 
PHG 
MAM 
INV 
WGS 
GSS 
PLN 
SYN 
VRT 
EST 
HTC 
PRI 
ROD 
HTG 
UNA 
STS 
Total 


FEER 


X1-2 GenBank 子 库 中 碱 基 的 数目 和 增长 趋势 


描述 


环境 样本 序列 
专利 序列 

细菌 序列 

病毒 序列 

V ERAS A 

其 他 哺乳 类 序列 
AE AES Dy FE PU 
全 基因 组 鸟 枪 序列 
基因 组 测序 序列 
植物 序列 

人 工 合 成 序列 

其 他 疹 椎 动物 序列 
EST 序 列 

高 通 量 cDNA 序 列 
灵 长 类 序列 
路 齿 类 序列 

高 通 量 基因 组 序列 
未 经 注释 的 序列 
序列 标签 位 点 
GenBank 中 的 序列 


转录 组 乌 枪法 序列 


版 本 173( 8/2009 ) 


39 829 979 

1 091 072 890 
5 592 927 651 
4 107 328 206 
779 481 462 
36 100 172 
576 977 646 

1 734 996 371 
148 165 117 763 
16 738 219 857 
3 695 552 256 
131 361 806 

2 366 300 257 
34 522 977 161 
636 472 189 

5 751 413 009 
4 206 718 960 
23 895 733 886 
119 348 

629 573 650 
254 698 274 519 


ee 


398 676 845 

1 723 286 428 
8 519 294 473 
5 333 010 385 
970 125 245 
43 456 808 
679 274 390 

2 036 240 836 
169 253 846 128 
18 442 479 673 
4 038 424 961 
142 548 355 

2 533 789 261 
36 803 930 321 
659 355 057 

5 943 029 356 
4 298 354 944 
24 276 862 305 
120 289 

634 263 196 
286 730 369 256 





900.9 
57.9 
523 
29.8 
24.5 
20.4 
17.7 
17.4 
14.2 
10.2 
9.3 
8.5 
7.1 
6.6 
3.6 
3.3 
2.2 
1.6 
0.8 
0.7 
12.6 


ik: 来 源 于 Benson DA, Karsch—Mizrachi I, Lipman DJ, et al. GenBank. Nucleic Acids Res,2001 ; 39 : 32-37. 


转录 组 马 枪 法 组 装 序列 (TSA ) 子 库 是 伴随 着 新 一 代 测 序 技术 出 现 的 ,如 "Roche-454 
Life Science" , “Illumina Solexa” 和 “Applied Biosystems SOLID" ,新 加 入 到 CenBank 数 据 库 中 
的 一 个 新 的 子 库 。 该 子 库 中 的 序列 主要 由 来 自 于 NCBI 的 踪迹 档案 ( trace archive, TA ) 序列 
读 取 档案 ( sequence read archive, SRA ) 和 EST 数 据 子 库 的 序列 组 法 而 成 。 
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环境 样本 序列 ( ENV ) 数 据 子 库 中 的 序列 来 日 于 非 WGS 测 序 的 序列 ,这 些 序列 的 物种 来 
源 是 未 知 的 。 许 多 的 环境 样本 序列 来 目 于 不 同 动物 组 织 ( 如 内 脏 、 皮 肤 ) 或 者 淡水 沉积 
温 果 和 矿井 污水 区 等 特殊 环境 中 的 微生物 。 环 境 样 品 序列 记录 中 在 关键 字 字 段 标 明 “ENV” 
并 且 在 来 源 特征 处 标明 “/environmental_sample”。 

表达 序列 标签 (EST ) 子 库 一 直 是 人 研究 基因 表达 及 基因 注释 的 重要 的 资源 ,同时 也 是 非 
WGS 子 库 中 最 大 的 一 个 。 它 收录 了 一 系列 物种 的 “测序 一 次 ”的 cpDNA 序列 或 者 是 表达 序列 
标签 。 截 止 到 2011 年 1 月 , EST 数 据 库 ( 100111 版 本 ) 共 收录 了 7.09 千 万 条 记录 , 表 1-3 列 出 了 收 
录 最 多 的 前 10 个 物种 。EST 数 据 库 中 的 数据 可 以 通过 NCBI 的 FTP 站 点 免费 下 载 ftp.ncbi.nih.gov/ 
repository/dbEST。EST 数 据 库 中 的 数据 经 过 进一步 blast 程 序 的 同 源 比 对 生成 了 UniGene 数 据 
库 ( www.nobi.nlm.nih. gov/unigene ), UniGene% JEn GZ ZEB T 1207 DI RRÉA30UI HEA B s 


X1-3 EST 数 据 库 中 记录 数量 居 前 的 10 个 物种 ( dbEST 第 100111 版 本 ,2011 年 1 月 ) 


ee es 
Homo sapiens 人 8 315 272 
Mus musculus + domesticus UNESI 4 853 562 
Zea mays 玉米 2019 114 
Sus scrofa 野猪 1 624 046 
Bos taurus 牛 1 559 494 
Arabidopsis thaliana TALES ST 1 529 700 
Danio rerio 斑马 鱼 1 488 275 
Glycine max KE 1 461 624 
Xenopus ( Silurana ) tropicalis diviti T 1 271 375 
Oryza sativa 7K AR 1 252 989 


全 基因 组 马 枪 序列 ( whole genome shotgun, WGS ) Hi FEJEWGS3 8 HERE ZA eI] ,每 
条 序列 都 有 一 个 访问 号 ,该 访问 号 包含 一 个 4 字母 的 计划 ID 号 ,后面 是 两 个 数字 的 版 本 号 和 
六 个 数字 的 重生 拼接 的 及 号 。 如 果 一 个 WGS 计 划 的 访问 号 是 “XXXX00000000”, 那 么 这 个 
计划 的 第 一 个 组 污 版 本 是 XXXX01000000, 第 一 个 重生 群 的 版 本 是 XXXX01000001。 截 止 到 
2010 年 10 月 ,全 基因 组 鸟 枪 测序 计划 已 经 向 GenBank 数 据 库 提交 了 6.4 千 万 条 拼接 序列 ,构建 
了 800 万 个 大 规模 的 染色 体 骨 架 的 组 装 体 。 | 

高 通 量 基 因 组 ( HTG ) 和 高 通 量 cDNA( HTC ) 序 列子 库 : HTG 子 库 ( www.ncbi.nlm.nih.gov/ 
HTGS ) 是 GenBank 数 据 库 中 一 个 存储 尚未 完成 的 大 规模 基因 组 记录 的 数据 子 库 。 这 些 记 
录 可 以 根据 数据 质量 分 为 0~3 个 阶段 ,3 阶段 代表 完成 状态 。 一 旦 达到 3 状态 , HTG 中 的 记录 
就 会 被 转移 到 合适 的 GenBank 数 据 库 的 其 他 子 库 中 。GenBank 中 的 HTC 子 库存 储 高 通 量 的 
cDNA 序 列 ,这 些 序 列 是 一 些 初 级 序列 ,可 能 包含 3” 和 5” 端的 非 翻 译 区 .部 分 编码 区 和 内 含 
子 。 完 成 后 的 高 质量 的 HTC 序 列 也 将 会 转移 到 合适 的 CenBank 数 据 库 的 其 他 子 库 中 。 

3 ) 基 于 物种 的 分 类 

GenBank 数 据 库 中 的 序列 还 可 以 根据 物种 名 进行 检索 。 表 1-4 总 结 了 在 GenBank 数 据 库 
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中 20 种 非 乌 枪法 测序 (non-WGS ) 最 多 的 物种 和 碱 基 数目 。 
X1-4 GenBank 数 据 库 中 碱 基数 量 居 前 的 20 个 物种 











Homo sapiens 人 14 792 487 417 
Mus musculus 小 鼠 8 859 010 528 
Rattus norvegicus BR 6 443 768 086 
Bos taurus | 牛 5 361 712 195 
Zea mays 玉米 5 037 629 354 
Sus scrofa 野猪 4783 381 701 
Danio rerio 斑马 鱼 3 137 945 523 
Strongylocentrotus purpuratus A 16 HA 1 352 920 226 
Oryza sativa Japonica Group TAR 1 197 245 122 
Nicotiana tabacum 烟草 1 187 388 273 
Xenopus ( Silurana ) tropicalis ivt T 1 147 132 278 
Drosophila melanogaster E 1 047 707 620 
Pan troglodytes 黑猩猩 1 001 926 471 
Arabidopsis thaliana 拟 南 芥 1 001 073 627 
Canis lupus familiaris BR 943 043 649 
Vitis vinifera 8j 4j 913 911 649 
Gallus gallus 鸡 891 463 513 
Glycine max Ku 886 103 518 
Macaca mulatta TA 821 393 285 
Ciona intestinalis AFR 748 350 657 


it: 来 源 于 Benson DA, Karsch-Mizrachi I, Lipman DJ, et al. GenBank. Nucleic Acids Res,2011;39 : 32-37. 


(2 ) 在 GenBank 数 据 中 获取 核酸 序列 的 方法 

1 ) Entrez 检 索 系 统 

Entrez ( http: //www.ncbi.nlm.nih.gov/sites ) 是 NCBI 的 数据 库 检 索 查 询 系统 。 利 用 Entrez 
系统 用 户 可 以 方便 地 检索 GenBank 数 据 库 中 的 核酸 序列 。GenBank 数 据 库 中 的 EST 子 库 和 
GSS 子 库 就 存储 在 Entrez 的 EST 和 GSS 数 据 库 中 , GenBank 数 据 库 中 其 他 的 记录 存储 在 Entrez 
的 Nucleotide 数 据 库 中 。 用 户 可 以 利用 Entrez 界 面 上 提供 的 限制 条 件 ( Limits ), 485] C Index )、 
检索 历史 ( History ) 和 剪贴 板 ( Clipboard ) 等 功能 来 实现 复杂 的 检索 查询 工作 。 对 于 检索 获 
得 的 记录 ,用 户 可 以 选择 需要 显示 的 数据 ,保存 查询 结果 ,甚至 以 图 形 方 式 观看 检索 获得 
的 序列 。 更 详细 的 Entrez 使 用 说 明 可 以 在 该 主页 上 获得 。 用 户 利 用 Entrez 系 统 还 可 以 检索 
GenBank 和 其 他 资源 的 蛋白 质 序列 .基因 组 图 谱 、 基因 表达 数据 、NCBI 分 类 数据 和 人 午 日 质 结 
构 数据 ,以 及 PubMed 和 PubMed Central 中 的 学 术 文 献 。 
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2 ) 与 测序 计划 相关 的 序列 记录 

由 NCBI 建 立 的 基因 组 计划 数据 库 允 许 测序 中 心 登记 测序 计划 ,并 且 得 到 一 个 特有 的 计 
划 标 识 符 , 用 以 保证 测序 计划 和 该 计划 产生 的 数据 之 间 建 立 可 靠 的 联系 。 该 数据 库 后 来 被 
重新 命名 为 BioProjects (http: //www.ncbi.nlm.nih.gov/bioproject )。BioProjects 数 据 库 通过 一 种 
有 组 织 的 结构 允许 用 户 访问 各 种 研究 计划 及 其 产生 的 数据 。 

3 ) BLAST 序列 相似 性 搜索 

序列 相似 性 搜索 是 CenBank 数 据 库 中 数据 注释 的 最 基础 和 使 用 最 多 的 方法 。NCBI 提 供 
了 一 系列 的 BLAST 程序 用 于 检测 查询 序列 和 数据 库 中 序列 的 相似 性 。 用 户 可 以 在 NCBI 网 站 
上 提交 一 段 序 列 与 NCBI 的 数据 库 中 的 序列 进行 相似 性 比 对 ,也 可 以 通过 NCBI 的 FTP 下 载 本 
地 BLAST 软件 后 ,在 本 地 做 BLAST 相似 性 比 对 。 

4 ) 通 过 GenBank 的 FTP 站 点 

NCBI 以 传统 的 文本 文件 格式 发 布 CenBank 的 数据 ,并且 以 ASN.1 格 式 进行 内 部 维护 。 每 
两 个 月 的 GenBank 以 及 EMBL 和 DDBJ 的 更 新 的 序列 数据 都 可 以 从 NCBI 的 匿名 FTP 服 务 各 上 
下 载 ( ftp.ncbi.nih.gov/genbank )。 同 时 还 可 以 从 NCBI 的 FTP 服 务 器 上 免费 下 载 完 整 的 库 。 在 
GenBank 发 布 的 第 179 版 本 中 有 1443 个 文件 ,需要 大 概 484GB 的 存储 空间 。 

2. ENA 数 据 库 

European nucleotide archive( ENA ) 是 欧洲 的 主要 的 核酸 序列 数据 库 , 由 欧洲 分 子 生 物 学 
研究 中 心 ( European molecular biology laboratory, EMBL ) 的 欧洲 生物 信息 学 研究 所 (European 
bioinformatics institute, EBI ) 建立 和 维护 (图 1-3 )。、ENA 数 据 库 整 合 了 原始 的 序列 数据 、 组 装 信息 
和 功能 注释 。ENA 数 据 库 主要 包括 三 个 主要 的 数据 库 : 序列 读 取 数据 库 ( sequence read archive, 
SRA ), 测 序数 据 库 ( trace archive ) 和 EMBI 数 据 库 (EMBL-Bank )。ENA 的 目标 是 通过 提供 数据 提 
AC 存储、 搜索 和 下 载 服务 支持 和 促进 核酸 测序 的 发 展 。 截 止 到 2010 年 10 月 ENA 数 据 库 一 共存 
储 了 5000 亿 个 原始 和 组 装 的 序列 ,包括 50 兆 的 碱 基 。 在 最 近 三 年 ,在 SRA 中 存储 的 新 一 代 测 序 
技术 产生 的 序列 已 经 成 为 ENA 中 最 大 和 增长 最 快 的 数据 ,已 经 占 到 了 ENA 数 据 大 约 935%。 同 时 ， 
在 ENA 中 也 存储 了 超过 1400 种 单 细 胞 和 多 细胞 生物 和 3000 多 种 病毒 和 鸣 菌 体 的 全 基因 组 序列 。 
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图 1-3 ENA 数 据 库 的 主页 
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ENA 的 数据 可 以 通过 网 络 浏 览 器 以 XML、HTML、FASTA 和 文本 格式 进行 访问 。 用 户 还 
可 以 利用 ENA 提 供 的 新 服务 ( http: //www.ebi.ac.uk/ena/search ) 进行 序列 相似 性 搜索 。 当 然 用 
户 还 可 以 通过 EMBL 数 据 库 提供 的 FTP 站 点 (ftp: //ftp.edi.ac.uk/pub/databases/embl/ ) 和 SRA 和 
测序 数据 库 提供 的 FTP 站 点 (ftp: //ftp.sra.ebi.ac.uk/ ) 进行 批量 下 载 。 

3. DDBJ 数 据 库 

日 本 DNA 数 据 库 DDBJ( DNA data bank of Japan, http: //www.ddbj.nig.ac.jp/ ) 于 1984 年 建 
立 , 由 信息 生物 学 中 心 和 国家 遗传 研究 所 的 日 本 DNA 数 据 库 ( CIB-DDBJ ) 维护 ,是 世界 三 大 
DNA 数据 库 之 一 ,也 是 亚洲 唯一 的 核酸 序列 数据 库 。 它 首先 反映 日 本 产生 的 DNA 数 据 , 同 
时 每 天 将 收集 的 数据 与 EMBL-Bank 和 GenBank 数 据 库 进行 交换 。DDBJ 的 主要 目标 是 提高 国 
际 核酸 序列 数据 库 ( international nucleotide sequence database, INSD ) 的 质量 。90% 的 日 本 研 
究 者 的 数据 是 通过 DDBJ 提 交 的 (图 1-4 )。 
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图 1-4 DDBJ 数 据 库 的 主页 


(二 ) 编码 和 非 编码 的 DNA 序 列 数 据 库 

l. RefSeq NCBI 的 参考 序列 ( reference sequence, RefSeq ) 数据 库 ( http: //www.ncbi.nlm. 
nih.gov/RefSeq/ ) 为 多 种 生物 提供 校正 的 序列 数据 信息 及 相关 资料 ,用 于 医学 、 基 因 功 能 和 基 
因 功 能 比较 研究 。RefSeq 数 据 库 是 一 个 综合 的 非 元 余 的 和 具有 较 好 注释 的 序列 集合 ,包括 
基因 组 序列 、RNA 序 列 和 蛋白质 序列 。RefSeq 数 据 库 区 别 于 其 他 数据 库 的 主要 特征 包括 非 
见 余 性 .明确 的 核酸 和 重 白 质 序 列 的 对 应 关系 、 实 时 更 新 和 数据 的 证 实 \ 格 式 的 一 臻 和 截然 
不 同 的 Accession 号 等 。 截 止 到 2011 年 7 月 ,在 RefSeq 数 据 库 发 布 的 49 版 中 共存 储 了 2.4 百 万 个 
基因 组 记录 、2.6 百 万 个 RNA 记 录 和 13.1 百 万 个 集 白 质 记录 。 

2. PseudoGene 假 基 因数 据 库 ( PseudoGene, http: //www.pseudogene.org/ ) 由 耶鲁 大 学 建 
立 的 一 个 存储 真 核 生物 和 原核 生物 基因 组 中 的 假 基 因 信息 的 综合 数据 库 。PseudoGene 数 据 
库 提供 了 友好 的 用 户 界 面 ,根据 不 同 的 假 基 因 特 征 将 数据 分 为 不 同 的 部 分 ,同时 允许 用 户 使 
用 感 兴趣 的 关键 字 进 行 查找 和 下 载 服 务 。 
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3. STRBase % $ HX 重复 DNA 数 据 JÆ( short tandem repeat DNA internet database, 
STRBase ) 由 位 于 美国 马里 兰州 的 国家 标准 与 技术 局 的 John M.Butler 等 人 于 1997 年 建立 (http: // 
www.cstl.nist.gov/div83 1/strbase/ )。STRBase 主 要 包括 四 个 部 分 : 一 般 数据 、 法 医 STR 信 息 、 其 
他 的 DNA 标 记 信息 和 非 人 类 DNA 资 源 以 及 其 他 资源 和 工具 。 一 般 数据 部 分 是 STRBase 的 
核心 ,包括 一 些 广泛 使 用 的 STR 标记 的 数据 。 这 些 数据 以 “STR 资 料 概览 ”的 形式 被 展示 。 
这 些 资 料 概览 由 四 个 部 分 组 成 : 一 般 信 息 、PCR 引物 、PCR 产物 大 小 和 其 他 数据 。 一 般 信 
息 区 段 包 括 STR 位 点 的 其 他 名 字 , 它 在 染色 体 上 的 位 置 ,核心 STR 重复 单位 的 序列 , 它 的 
GenBank 序列 号 和 参考 序列 中 重复 单位 的 个 数 。 

4. TRDB 串联 重复 数据 库 ( tandem repeats database, TRDB ) 由 波士顿 大 学 生物 计算 和 
信息 中 心 的 Gary Benson 于 2006 年 建立 (http: //tandem.bu.edu/cgi-bin/trdb/trdb.exe )。TRDB 数 
据 库 收录 了 基因 组 DNA 序 列 中 的 串联 重复 序列 和 各 种 分 析 工 具 。TRDB 数 据 库 提供 了 一 系 
列 服务 包括 : 串联 重复 序列 查找 工具 的 下 载 ,查询 和 过 滤 服 务 ,基于 序列 相似 性 的 重复 序列 
RAE 多 态 的 预测 , PCR 引 物 的 选择 和 数据 的 下 载 。 


二 、RNA 序 列 的 获取 >>> 


l. ncRNAdb 非 编 码 RNA 数 据 库 (noncoding RNA database ) 提供 了 非 编 码 RNA 的 序 
列 和 功能 信息 。 虽 然 这 些 RNA 不 编码 重 日 质 ,但 是 这 些 非 编 码 RNA 仍 然 具 有 重要 的 功能 包 
插 染 色 质 结构 重建 .基因 表达 的 转录 和 翻译 调控 和 亚 细 胞 位 置 的 调控 等 。 目 前 该 数据 库 收 
录 了 来 自 99 种 真 核 生物 、 细 菌 和 古 细菌 的 3 万 多 条 序列 。ncRNAdb 的 主要 的 序列 资源 来 自 于 
GenBank。 还 有 一 部 分 鼠 和 人 类 的 nceRNA 注 释 信 息 来 自 于 FANTOM3 数 据 库 ( http: //fantom. 
gsc.riken.jp/4/ ) 和 H-Iev 人 类 基因 综合 注释 数据 库 (http: //jbirc.jbic.or.jp/hinv/ahg-db/index. 
jsp). 2H 菌 的 小 细胞 质 RNA 序 列 和 注释 信息 来 自 于 Rfam 数 据 库 ( http: //rfam.sanger.ac.uk/ ). 
ncRNAdb 中 的 数据 可 以 通过 以 下 几 种 方法 进行 检索 : Search ( http: //ncrnadb.trna.ibch.poznan. 
pl/search.html ), BLAST ( http: //ncrnadb.trna.ibch.poznan.pl/blast.html ), Browse ( http: //nernadb. 
trna.ibch.poznan.pl/Browser.html ), Download ( http: //ncrnadb.trna.ibch.poznan.pl/download.html ). 

2. Rfam ”Rfam 是 通过 多 序列 比 对 、 二 级 结构 和 方差 模型 方法 建立 的 非 编 码 RNA 家 族 数 
据 库 。Rfam 可 以 通过 位 于 英国 的 http: //www.sanger.ac.uk/Software/Rfam/ 或 者 位 于 美国 的 http: // 
rfam.wustledu/ 站 点 进行 访问 。Rfam 数 据 库 可 以 分 为 三 个 主要 的 功能 类 : 非 编 码 RNA 基 因 、 
结构 化 的 顺 式 调控 元 件 和 自主 剪 切 的 RNA。 这 些 具 有 功能 的 RNA 二 级 结构 往往 比 RNA 序 
列 更 保守 。Rfam 发 布 的 第 1 版 仅 包含 25 个 家 族 的 5 万 个 非 编 码 RNA 基 因 。 截 止 到 2011 年 6 月 
Rfam 发 布 了 第 十 个 版 本 包含 1973 个 家 族 。 

3. GtRDB 基因 组 :RNA 数据 库 ( genomic tRNA database, GtRDB ) ( http: //gtrnadb.ucsc. 
edu ) 存储 了 已 完成 和 接近 完成 的 基因 组 中 由 tRNAscan-SE 程 序 预测 的 tRNA 基因 。 截 止 到 
2011 年 4 月 , GtRDB 数 据 库 包 含 了 来 目 46 种 真 核 生物 、86 种 上 古 细 菌 和 629 种 细菌 的 RNA 基因 。 

4. miRBase miRBase( http: //www.mirbase.org/ ) 是 一 个 主要 的 存储 所 有 在 科学 文献 中 
发 表 的 微小 RNA( microRNA ) 序列 和 注释 的 国际 数据 库 。miRBase 建 立 于 2002 年 ,截止 到 
2011 年 4 月 已 经 发 布 了 第 17 版 本 ,包含 了 140 多 个 物种 的 1.6 万 个 miRNA 记 录 。 图 1-5 显 示 了 
miRbase 中 miRNA 记 录 和 在 Pubmed 中 关于 miRNA 文 献 数 目的 增长 趋势 。miRBase 数 据 库 主 
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要 为 用 户 提供 以 下 几 种 服务 : 由 可 以 检索 已 经 公开 发 表 的 miRNA 序 列 和 注释 信息 ; @ 可 以 
获得 和 下 载 miRNA 的 发 卡 和 成 熟 序 列 ,也 可 以 通过 网 页 ( http: //www.mirbase.org/ftp.shtml ) 下 
载 miRBase 中 的 所 有 序列 和 注释 信息 ; GmiRBase Registry ( http: //www.mirbase.org/registry. 
shtml ) 允许 用 户 提 交 新 发 现 的 miRNA ,并 提供 专 有 的 名 称 ; 中 用户 可 以 通过 miRBase 数 据 库 
连接 到 microCom 获 得 预测 的 靶 基 因 。 
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图 1-5 miRBase 中 miRNA 记 录 和 在 Pubmed 中 关于 miRNA 文 献 数目 的 增长 趋势 
来 源 于 Kozomara A, Griffiths-Jones S.miRBase: integrating microRNA annotation and 
deep-sequencing data. Nucleic Acids Res,2001;39:152-157. 


5. UTRdb/UTRsite UTRdb 是 真 核 生物 mRNA 的 5 端 和 3” 端 非 翻 译 区 序列 的 非 宛 余 
数据 库 , UTRsite 搜 集 这 些 非 翻 译 区 序列 中 的 功能 片段 ( http: //utrdb.ba.itb.enr.it/ ); UTRdb/ 
UTRsite 数 据 库 现在 主要 分 为 两 个 部 分 UTRef 和 UTRfull。UTRef 部 分 收录 了 来 自 于 79 个 物 
种 48.3 万 个 基因 的 47.3 万 条 5”UTR 和 52.7 万 条 3 UTR 记录, 同时 还 存储 了 78.8 万 个 UTR site 
模 体 、2 万 个 实验 验证 的 miRNA 的 靶 点 和 24.2 万 个 保守 区 域 。UTRfull 部 分 主要 针对 人 类 ， 
包括 了 来 自 于 ASPicDB( http: //t.caspur.it/ASPicDB/index.php ) 数据 库 全 长 转录 本 的 非 翻 
译 区 序列 ,12.4 万 个 5”UTR 和 19.4 万 个 3”UTR ,64.9 万 个 保守 元 件 和 10.5 万 个 实验 验证 的 
miRNA 靶 点 。 


三 、 蛋 白质 序列 的 获取 >> 


1. NCBI Protein database ”NCBI 的 Entrez 集 日 数据 库 ( http: //www.nchi.nlm.nih.gov/sites/entrez, ? 
db-protein ) 整合 了 来 自 于 多 种 资源 的 和 蛋 日 质 序列 ,这 些 资源 包括 SwissProt, the Protein Information 
Resource, the Protein Research Foundation, the Protein Data Bank 和 从 GenBank 和 RefSeq 数 据 库 
中 有 注释 的 编码 区 直接 翻译 得 到 的 蛋白 质 序列 。 通 过 Entrez 和 集 白 数据 库 中 的 蛋白 质 序列 记 
录 还 可 以 查看 相关 的 预 处 理 的 蛋白 序列 BLAST 比 对 结果 ,蛋白 质 结构 ,保守 的 蛋白 结构 域 ， 
核酸 序列 ,基因 组 和 基因 。 例 如 ,要 检索 人 类 发 状 分 裂 相关 增强 子 -5( hairy and enhancer of 
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split 5 ) 的 入 日 质 序 列 , 可 以 在 输入 栏 中 输入 检索 条 件 “( hairy and enhancer of split 5[Protein 
Name] ) AND human[Organism]" ,然后 点 击 “Search” 检 过 ,检索 的 页 面 如 图 1-6 所 示 。 








RecName: Fullz Transcription factor HES-5; AltName: FullzClass B basic helix-loop-  . -— 
helix protein 38; Short=bHLHb38; AltName: FullzHairy and enhancer of split 5 — 


UniProtKB/Swtss-Prot Q5TAB9 1 
FA 5 apn ` 


Analyze this sequence 
a - Run BLAST 








Qo t9. iv! 


identify Conserved Domains 
Ma ol —— Pull=Transcription factor HES-5. Alt ans: Full-Class B - 
basic helix-loop-helix protein 38. Short-bHLHb38. AltName: Find in this Sequence 
FullzHairy and 5. 


ACCESSION QSTA89 
VERSION baci 1 61:74145195 
otKB: 1 HESS 


Articles about the HESS gene 
DBSOURCE ocus | HUMAN, accession Q5STAS9. 


Sines Minen ji The expressions v [rj oic ge 
oe a accessions: B9DISS m advanced ovar [J Car 10] 
reat ed: Dec 12, 2006. [Transcription factor — € —— 
sequence updated: Dec 21, development] 008 


2004. 
zr agen e ap 22, LE 139246.21, CAX30820,1, CH411182.1 Notch activation promotes c pde petet 
EAY 56096 EP 001010926. 1 the formation of neural : [Mol 008) 
xrefs (non-sequence databases): IPI:IPIO03139T7, UniGene:Hs. 5/971, 
Pr oteinlodelPortal:Q5TAB9, SNR:Q5TAB9, STKING:Q5TAB9, 
once e:Q5TAB9, DED: 74745795, PRIDE: Q5TAB9 
1: 8NST00000378€ 53, Ensembl :EKSP00000361114, 
Beni: ENSG00000197921, GeneID: 382585, KEGG:hza: 388585, identical proteins for Q5TA89.1 


图 1-6  ZEntrez'P E A. E 2 8 AARTE Ed 


See all 


2. EXProt EXProt( database for experimentally verified protein functions, http: //www.cmbi. 
kun.nl/EXProt/ ) 是 一 个 非 元 余 的 蛋白 质数 据 库 , 只 存储 那些 在 基因 组 注释 计划 和 其 他 公共 数 
据 库 中 功能 得 到 实验 证 实 的 那些 蛋白 质 。EXProt 发 布 的 2.01 版 本 中 包括 了 6491 条 记录 。 这 
些 记 录 来 自 于 大 肠 埃 和 硕 菌 基因 组 的 PseudoCAP( http: //www.pseudomonas.com/ ) TTX AAR A JE 
组 数据 库 CenProtEC( http: //genprotec.mbl.edu/ ) 还 有 EMBL 核 酸 序列 数据 库 的 原核 生物 部 分 。 
在 EXProt 中 的 记录 都 有 一 个 唯一 的 ID 号 和 相对 应 的 来 源 物 种 ,蛋白 序列 .功能 注释 ,来 源 数 
据 库 .对 应 的 基因 名 字 和 在 PubMed 相 关 的 文献 。 

3. MIPS 数据库 ( http: //mips.gsf.de/ ) 由 德国 莫 尼 黑 蛋 白质 序列 信息 中 心 (databases at 
Munich information center for protein sequences, http: //www.helmholtz—muenchen.de/en/ibis ) 建 
RHE MIPS 3c de MAE — A 90 AY SE 2H 2c Pe LL He AE Dy), E A AVE A 2H B5) 
系统 的 比较 基因 组 学 分 析 服 务 。 同 时 该 站 点 还 提供 基因 组 分 析 工 具 数据 库 检 索 服 务 、 表 达 
分 析 、 蛋 白质 互 作 等 网 络 服务 。 

4. PIR Æ HAMI B AE SJE protein information resource, PIR ) ( http: //pir.georgetown. 
edu/ ) 是 由 美国 国家 生物 医学 研究 基金 会 NBRF( national biomedical research foundation ) F 
1984 年 建立 的 一 个 综合 公共 生物 信息 资源 ,其 目的 是 支持 基因 组 、 重 白质 组 和 系统 生物 学 的 
人 研 究 ,帮助 全 究 者 鉴别 和 解释 重 白 质 序列 信息 ,研究 分 子 进 化 功能 基因 组 ,进行 生物 信息 学 
分 析 。PIR 数 据 库 除 了 提供 重 昌 质 的 序列 数据 外 ,还 包括 以 下 的 信息 : 蛋白 质 名 称 、 分 类 .来 
源 .原始 数据 的 参考 文献 E A EDAEN E A MERRIE ,序列 中 相关 位 点 和 功能 区 域 。PIR 
还 提供 了 超 家 族 、 域 和 模 体 水 平 上 的 蛋白 分 类 。 此 外 PIR 还 提供 ra 
基于 文本 的 交互 式 检索 、 序 列 相 似 性 检索 和 综合 序列 相似 性 ,注释 信息 和 重 日 质 家 族 信 息 
高 级 检索 。 在 PIR 的 站 点 上 也 提供 了 常规 的 生物 信息 学 工具 ,进行 更 深入 的 数据 发 气 。PIR 
现在 已 经 与 Swiss-Prot 和 TrEMBIL 合 作 ,共同 构成 了 UniProt 数 据 库 。 

5. Swiss-Prot Swiss—Prot( UniProt/Swiss—Prot ) ( http: //www.expasy.org/sprot ) 由 Geneva 大 学 
和 欧洲 生物 信息 学 人 研究 所 ( EBI ) 于 1986 年 联合 建立 的 , 它 是 目前 国际 上 权威 的 蛋白 质 序 列 
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TUE. BGE EE hE Ae AR HAR, BET AR A SE) S Ca 、 分 类 学 
信息 、 注 释 等 ,注释 中 包括 蛋白 质 的 功能 、 转 录 后 修饰 、 特 殊 位 点 和 区 域 .二 级 结构 、 四 级 结 
构 .与 其 他 序列 的 相似 性 .序列 残缺 与 疾病 的 关系 序列 变异 体 和 冲突 等 信息 。SWISS-PROT 
中 尽 可 能 减少 了 宛 余 序列 ,并 与 其 他 30 多 个 数据 库 建 立 了 交叉 引用 ,其 中 包括 核酸 序列 库 、 
和 蛋白质 序 列 库 和 蛋白质 结 构 库 等 。Swiss-Prot 中 的 数据 主要 来 源 于 : 了 从 核酸 数据 库 经 过 翻 
译 推导 而 来 ; @O 从 和 蛋白 质数 据 库 PIR 挑 选 出 合适 的 数据 ; @) 从 科学 文献 中 摘录 ; 由 研究 人 员 
直接 提交 的 蛋白 质 序列 数据 。Swiss-Prot 在 2011 年 9 月 发 布 的 第 2011_09 版 本 中 存储 了 来 自 
于 20.1 万 篇 参考 文献 的 53.2 万 条 序列 记录 包括 了 1.8 亿 个 氨基 酸 (图 1-7 )。 

Swiss-Prot 数 据 库 与 其 他 蛋白质 数据 库 相 比较 具有 三 个 明显 的 特点 : 山 在 Swiss-Prot 数 
据 库 中 每 一 个 序列 记录 包括 核心 数据 和 注释 两 大 类 。 核 心 数 据 包括 序列 参考 文献 和 分 类 
信息 等 。 而 注释 包括 功能 描述 翻译 后 修饰 .结构 域 和 功能 位 点 、 和 蛋白 质 的 四 级 结构 .与 该 
蛋白 质 相 关 的 疾病 和 序列 的 变化 信息 等 。C)Swiss-Prot 数 据 库 尽 量 将 相关 的 数据 合并 , 降 
低 数据 的 元 余 度 。 如 果 不 同 来 源 的 原始 数据 有 矛盾, 则 在 相应 的 序列 特征 表 中 加 以 注释 。 
G)Swiss-Prot 目 前 已 经 建立 了 与 其 他 30 多 个 相关 数据 库 的 交叉 索引 ,便于 用 户 迅 速 得 到 在 其 
他 数据 库 中 的 相关 信息 。 


Number of entries in UniProtK B/Swiss- Prot 
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图 1-7 Swiss 一 Prot 数 据 库 中 记录 的 数目 和 增长 趋势 
来 源 于 : http: //web.expasy.org/docs/re Inotes/re Istat.htm] 
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Section 2 Pairwise Sequence Alignment 





一 、 序 列 比 对 的 相关 概念 》》 





(一 ) 相似 性 与 同 源 性 


序列 比 对 ( sequence alignment ) 是 通过 在 序列 中 搜索 一 系列 单个 性 状 或 性 状 模式 来 比较 
2 个 ( 双 序 列 比 对 ) 或 更 多 (多 重 序列 比 对 ) 序 列 的 方法 。 序 列 比 对 最 根本 目的 之 一 是 通过 对 
比 不 同 物种 序列 的 相似 性 判断 它们 之 间 是 否 具 有 同 源 性 。 值得 注意 的 是 ,相似 性 ( similarity ) 
和 同 源 性 ( homology ) 虽 然 在 某 种 程度 上 具有 一 致 性 ,但 它们 是 完全 不 同 的 两 个 概念 。 相 似 
性 和 同 源 性 是 序列 比较 和 分 析 的 基础 。 同 源 序列 ,简单 地 说 ,是 指 从 有 茶 一 共同 祖 和 经 趋 异 进 
化 而 形成 的 不 同 序列 。 相 似 性 是 指 序列 比 对 过 程 中 用 来 描述 检测 序列 和 目标 序列 之 间 相 同 
DNA 碱 基 或 氨基 酸 残 基 顺 序 所 占 比例 的 高 低 。 同 源 性 是 序列 同 源 或 者 不 同 源 的 一 种 论断 ， 
是 个 定性 的 概念 ,没有 度 的 差异 ,而 相似 性 是 两 个 序列 相关 性 的 量化 。 两 条 序列 之 间 要 么 是 
同 源 的 ,要 么 是 不 同 源 的 , 决 不 能 像 相似 性 那样 有 具有 多 或 少 的 数量 关系 ,例如 ,不 能 说 两 条 订 
列 之 间 有 90% 的 同 源 。 

如 果 两 个 DNA 序 列 经 过 序列 比 对 具有 较 高 的 相似 性 , 则 检测 序列 和 目标 序列 可 能 是 同 
源 序列 ; 而 当 相 似 性 程度 低 于 20% 时 ,就 难以 确定 或 者 根本 无 法 确定 其 是 否 具 有 同 源 性 。 同 
源 序列 可 进一步 分 为 两 种 : 直系 同 源 ( orthology ) 127 2& [8] J( paralogy )。 耻 系 同 源 是 指 在 
种 系 形成 ( speciation ) 过 程 中 起 源 于 一 个 共同 祖先 的 不 同 种 系 中 的 DNA 或 重 日 质 序 列 。 大 
一 个 基因 原先 存在 于 某 个 物种 ,而 该 物种 分 化 为 了 两 个 物种 ,那么 新 物种 中 的 基因 是 直系 
同 源 的 ; 劳 系 同 源 的 序列 因 基 因 复 制 ( gene duplication ) 而 被 区 分 开 。 寿 生物 体 中 的 某 个 基 
因 被 复制 了 ,那么 两 个 副本 序列 就 是 旁 系 同 源 的 。 直 系 同 源 的 一 对 序列 称 为 直系 同 源 体 
( orthologs ), 劳 系 同 源 的 一 对 序列 称 为 劳 系 同 源 体 ( paralogs )。 直 系 同 源 体 通 冰 有 相同 或 相 
似 的 功能 ,但 对 劳 系 同 源 体 则 不 一 定 : 由 于 缺乏 原始 的 自然 选择 的 力量 ,繁殖 出 的 基因 副本 
可 以 目 由 的 变异 并 获得 新 的 功能 。 


(二 ) 空位 罚 分 概念 及 策略 


一 般 在 进行 双 序列 或 者 多 序列 比 对 时 为 了 获得 两 个 或 多 个 序列 的 最 佳 比 对 要 对 序列 插 
入 空位 ( gap )。 空 位 是 指 在 进行 序列 比 对 时 ,为 了 获得 最 佳 比 对 结果 ,算法 权衡 后 在 两 条 或 
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多 条 序列 中 产生 的 间隔 区 。 引 入 空位 的 数量 和 位 置 对 比 对 结果 有 显著 影响 ,因此 必须 在 比 
对 计 分 时 对 其 罚 分 。 空 位 罚 分 ( gap penalty ) 指 序列 比 对 分 析 时 为 了 反映 核酸 或 氨基 酸 的 插 
入 或 缺失 等 情况 而 插入 空位 并 进行 罚 分 ,以 控制 空位 插入 的 合理 性 。 

除了 对 应 于 单字 符 插 入 和 删除 的 空位 , 比 对 中 还 经 常用 到 更 大 的 对 应 于 多 个 连续 字符 
插入 和 删除 的 空位 。 多 个 连续 字符 的 插入 和 删除 可 由 多 次 独立 的 单字 符 插 入 和 删除 造成 ， 
也 可 由 一 次 多 字符 插入 和 删除 造成 。 尽 管 单字 符 突变 的 发 生 率 高 于 多 字符 突变 的 发 生 率 ， 
从 概率 上 说 ， ed pp tie 
概率 。 此 外 ,对 于 长 的 空位 ,它们 出 现在 序列 的 头 、 中 和 尾 也 常常 具有 不 同意 义 。 最 优 的 序 
dried 尽 可 能 多 的 匹配 和 尽 可 能 少 的 空位 。 揪 入 任意 多 的 空位 可 
能 会 产生 较 高 的 分 数 ,但 找到 的 并 不 一 定 是 真正 相似 的 序列 。 

有 2 个 参数 应 用 于 空 位 罚 分 设 定 ,一 she 位 设置 人 gap opening ) AK, 3j— 4-328 位 扩 - 
展 ( gap extension ) 有关 ( 表 1-5 )。 任 一 空 Sire ranted SME Tat, UTE 8 TB X 
必须 处 以 空位 扩展 罚 分 。 对 于 一 个 空位 长 度 为 k 的 罚 分 所 可 用 下 式 表 示 : 

wg=a + bk (1-1) 

其 中 a 是 空位 设置 鹿 分 ,5 为 空位 扩展 罚 分 。 这 两 个 参数 值 设置 的 变化 对 联 配 产生 影响 。 


表 1-5 空位 设置 和 空位 扩展 罚 分 对 联 配 的 影响 











空位 设置 区 分 。 ”空位 扩展 罚 分 。- 说 明 | 
大 大 极 少 插入 或 缺失 : 适用 于 非常 相关 蛋白 质 间 的 联 配 
大 小 少量 大 块 插入 : 用 于 整个 功能 与 可 能 插入 的 情况 
小 X 大 量 小 块 插 入 : 适用 于 亲缘 关系 较 远 的 蛋白 质 同 源 性 分 析 
(=) 蔡 换 记分 矩阵 


对 于 序列 中 的 插入 和 删除 突变 ,序列 比 对 采用 插入 空位 来 处 理 ,使 得 原本 对 应 的 字符 仍 
旧 能 够 对 应 ; 而 对 于 序列 中 的 替换 突变 ,需要 考虑 不 同 替 换 的 意义 。 合 理 而 精确 的 记分 需要 
考虑 替换 的 各 种 情形 。 对 于 DNA 和 RNA 序 列 , 情 况 特别 简单 ,施用 于 4 种 碱 基 和 6 种 彼此 间 替 
换 关 系 的 记分 规则 可 用 简单 的 替换 记分 矩阵 来 描述 。 对 于 蛋白 质 序列 ,因为 蛋白 质 由 20 种 
氨基 酸 构 成 ,是 不 同 的 氨基 酸 具 有 不 同 的 理化 性 质 ,情况 较为 复杂 ,存在 许多 不 同 的 替换 记 
分 矩阵 。 

由 于 替换 有 多 种 情形 , 且 可 按 不 同方 式 罚 分 ,如 何 精确 处 理 序列 中 的 替换 突变 十 分 重 
要 。 显 然 ,不 同 字符 间 的 替换 具有 不 同 的 概率 ,也 具有 不 同 的 意义 ; 同时 ,不 同 物种 间 的 替换 
也 有 不 同 的 概率 和 意义 。 精 确 地 处 理 替 换 需 要 考虑 各 种 情形 ,而 方便 地 处 理 蔡 换 则 要 求 把 
不 同 的 处 理 方法 参数 化 ,这 些 参数 就 是 替换 记分 矩阵 ,它们 定量 地 标示 了 不 同 替换 的 意义 。 

1. DNA 序 列 比 对 的 替换 记分 矩阵 

COSER: 等 价 和 矩阵 ( 表 1-6 ) 是 最 简单 的 一 种 替换 记分 矩阵 ,其 中 ,相同 核 苷 酸 间 的 
匹配 得 分 为 1 ,不 同 核 苷 酸 间 的 替换 得 分 为 0。 尽 管 含义 清晰 明了 ,由 于 不 含有 碱 基 的 任何 理 
化 信息 和 不 区 别 对 待 不 同 的 替换 ,在 实际 的 序列 比 对 中 较 少 使 用 。 
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表 1-6 DNA MEE 








A T C G 
A 1 0 0 0 
si 0 l 0 0 
C 0 0 l 0 
G 0 0 0 l 


(2) BLASTER: Zeit BEE HEXIA, URO g EXHI PITE RA BT 48 2J 
+5, 反 之 得 分 为 -4, 则 比 对 效果 较 好 。 表 1-7 是 其 替换 记分 矩阵 ,这 个 矩阵 广泛 地 被 DNA 序 列 
比 对 所 采用 , 称 为 BLAST 和 矩阵 。BLAST 是 目前 最 流行 的 核酸 序列 数据 库 搜 索 程 序 。 


表 1-7 BLAST 矩阵 


A Fexr o G 
A 5 -4 -Á -4 
T i 5 =A -4 
C zi -4 5 -4 
G -4 -4 -4 5 


(3 ) Hd — Boi B [VE transition-transversion matrix ): 核酸 的 碱 基 按 照 环 结构 特征 被 划分 
为 两 类 , — KER REIRA SIEG ), 它 们 有 两 个 环 ; 另 一 类 是 喀 喧 ( 胞 喀 叶 C , fc Je is E 
T), 它 们 只 有 一 个 环 。 如 果 DNA 碱 基 的 蔡 换 保持 环 数 不 变 , 则 称 为 转换 ,如 A 一 C、C 一 T; 如 
果 环 数 发 生变 化 , 则 称 为 颠 换 , 如 A 一 C、A-T 等。 在 进化 过 程 中 ,转换 发 生 的 频率 远 比 颠 换 
高 , 表 1-8 所 示 的 矩阵 用 来 反映 这 种 情况 ,其 中 转换 的 得 分 为 -1 ,而 颠 换 的 得 分 为 -5。 


表 1-8 FPR 


A f C G 
A ] -5 -5 =] 
T =D l =l -5 
C -5 -1 l -5 
G -] -5 -5 l 


2. FEA PI EXT RRE ”对 于 绰 晶 质 序列 ,记分 矩阵 主要 用 于 记录 在 做 序 
列 比 对 时 两 个 相对 应 的 残 基 的 相似 度 。 人 简单 的 蔡 换 记分 办 法 ,如 +1 表 示 匹 配 ,0 表示 失 配 ,是 
不 够 的 。 构 成 重 白 质 的 氨基 酸 具 有 不 同 的 生物 化 学 特性 ,这 些 特性 可 影响 它们 在 进化 过 程 
中 的 相互 替换 。 下 面 介 绍 两 种 常用 的 氨基 酸 蔡 换 记分 和 矩阵。 

( 1) PAMÁR ME: 对 于 氨基 酸 之 间 的 替换 ,对 实际 蔡 换 率 的 直接 观察 常常 是 导出 合理 的 
记分 的 好 方法 ,由 此 产生 的 一 组 蔡 换 记分 矩阵 是 点 突变 可 接受 矩阵 point accepted matrix, 
PAM )。 它 们 基于 氨基 酸 进化 的 点 突变 模型 , 即 如 果 两 种 氨基 酸 蔡 换 频 繁 ,说 明 自 然 界 易 接 
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受 这 种 替换 ,那么 这 对 氨基 酸 替换 得 分 就 应 该 高 。PAM 和 矩阵 是 目前 蛋白 质 序列 比 对 中 最 广 
泛 使 用 的 记分 方法 之 一 ,1 个 PAM 的 进化 距离 表示 在 100 个 残 基 中 发 生 一 个 可 以 接受 的 残 基 
突变 的 概率 。 对 应 于 一 个 更 大 进化 距离 间隔 的 突变 矩阵 ,可 以 通过 对 原始 矩阵 进行 一 定 的 
数学 处 理 获 得 。 将 PAM-1 自 乘 n 次 ,可 以 得 到 PAM-n。 例如 ,PAM250 相 似 性 分 数 和 矩阵 ( 表 1-9) 
相当 于 在 两 个 序列 之 间 具 有 20% 的 残 基 匹 配 。 对 于 PAM-" 和 矩阵 , x 越 小 表示 氨基 酸 变异 的 可 
能 性 越 小 ,高 相似 序列 之 间 的 比 对 应 该 选用 n 值 小 的 矩阵 , 低 相 似 序列 之 间 的 比 对 应 该 选用 nn 
值 大 的 矩阵 。 








表 1-9 PAM-250 和 矩阵 


A RON CE S TW Y, LB 
A 2-2 0 0-2 0 0 1-1-1-2-1-1-3 1 1 1 -6 -3 0 0 0 
R -2 6 0-1-4 1-1-3 2 -2 -33 0-4 0 0-1 2-4-2-1 0 
N 0 0 2 2-4 1 1 0 2-2 -3 1-2-3 0 1 0 -4 -2 -2 2 1 
D 0-1 2 4-5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 3 3 
C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -4 -5 
Q 0 1 1 2-5 4 2-1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 1 3 
E 0-1 1 3-5 2 4 0 1-2-3 0 -2 -5 -1 0 0 -7 -4 -2 3 3 
G 1-3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0-7-5 -1 0 0 
H-1 2 2 1-3 3 1-2 6 -2 -2 0 -2 -2 0-1-1 -3 0 -2 1 2 


I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -2 -2 
L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -3 -3 
K -l 3 1 0-5 1 0-2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 1 0 
M -1 0 -2 -3 -5 -l1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -2 -2 
F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -4 -5 
P 1 0 0 -1 -3 0-1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 -I1 0 
> 0 1 0 0-1 0 41 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 0 0 
T 1-1 0 0-2-1 0 0-1 0-2 0-1 3 0 1 3 -5 -3 0 0 -i 
W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -5 -6 
Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -3 -4 
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2-2 2 -1 -1 -1 0 -6 -2 4 -2 -2 
B 0 -1 2 3 -4 1 3 0 1 -2 -3 1 -2 -4 -1 0 0 -5 -3 -2 3 2 
Z 0 0 1 3 -5 3 3 0 2 2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3 


PAM 和 矩阵 的 制作 步骤 是 : 

1 ) 构 建 序列 相似 (大 于 85$% ) 的 比 对 。 

2 ) 计 算 氨 基 酸 /的 相对 突变 率 mj( j 被 其 他 氨基 酸 替换 的 次 数 )。 
3 ) 针 对 每 个 氨基 酸 对 i 条 , 计 算 7 被 蔡 换 的 次 数 。 
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4 ) 替换 次 数 除 以 相对 突变 率 ( mj )。 

5 ) 利 用 每 个 氨基 酸 出 现 的 频 度 对 7 进行 标准 化 。 

6 ) 取 常用 对 数 , 得 到 PAM-i(i, j )。 

(2 ) BLOSUM#6 4: BLOSUM( block substitution matrix ) 4E [ FA Henikoff K 14 M4 A Jr B 
块 数据 库 BLOCKS 中 找 出 的 另 一 种 氨基 酸 替 换 记 分 矩阵 ,用 于 解决 序列 的 远 距 离 相 关 。 在 构 
建 德 阵 过 程 中 ,通过 设置 最 小 相同 残 基 数 百 分 比 将 序列 片段 整合 在 一 起 ,以 避免 由 于 同一 个 
残 基 对 被 重复 计数 而 引起 的 任何 潜在 偏差 。 在 每 一 片段 中 ,计算 出 每 个 残 基 位 置 的 平均 贡献 ， 
使 得 整个 片段 可 以 有 效 地 被 看 做 为 单一 序列 ,通过 设置 不 同 的 百分比 ,产生 了 不 同和 矩阵 。 表 
1-10 所 示 的 BLOSUM 和 矩阵 是 由 具有 62% 相 同比 例 的 序列 被 组 合 统计 后 形成 的 矩阵 。 注 意 , 在 
比 对 高 度 相似 的 序列 时 使 用 较 高 值 的 矩阵 (高 至 BLOSUM-90 ), 在 比 对 差异 大 的 序列 时 使 用 较 
低 值 的 矩阵 ( 低 至 BLOSUM-30 )。 对 于 BLOSUM-n 和 矩阵 , x 越 小 则 表示 氨基 酸 相 似 的 可 能 性 越 
小 ,高 相似 的 序列 之 间 比 较 应 该 选用 n 值 大 的 矩阵 , 低 相 似 序列 之 间 的 比 对 应 该 选用 n 值 小 的 
矩阵。 例如 , BLOSUM-62 用 来 比较 62% 相 似 度 的 序列 , BLOSUM-80 用 来 比较 80% 左 右 的 序列 。 


#1-10 BLOSUM-62 和 矩阵 











A R.N D C 人 

A 4 -1 -2 -2 9 -A = OO -2 -A -l A A Sal 1 8 -— — "V — a 
R -1 5 0 -2 -3 1 0-2 0 -3 -2 2 -l1 -3 -2 -1 -1 -3 -2 -3 -1 0 
N -2 0 6 1-3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 
D -2 -2 1 6-3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 | 
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 
Q -1 1 0 0-3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -i -2 -1 -2 0 3 
E -1 0 0 2-4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -l1 -2 
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 3 1 0 -3 -2 -1 -3 -1 3 -3 -3 

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -l1 -2 -1 1] -4 -3 
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 
M -1 -1 -2 -3 -1 0 -2 -3 -2 21 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -l1 
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0-3 0 6 -4 -2 -2 1] 3 -I -3 -3 
P -1 -2 -2 -1 -3 -l1 -l1 -2 -2 -3 -3 -l1 -2 -4 7-1 -1 -4 -3 -2 -2 -l 
S 1-1 1 0-1 0 0 0 -i -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1] 5 -2 -2 0 -1 -l 
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 Ill 2 -3 -4 -3 
Y -2 -2 -2 -3 -2 -l1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -l1 -3 -2 
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 
B -2 -1 3 4-3 0 1-1 0 -3 -4 0 -3 -3 -2 0 -l1 -4 -3 -3 4 1 
Z -21 0 0 1-3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -l1 -3 -2 -2 1 4 
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二 、 双 序列 比 对 算法 》》 


生物 序列 CDNA 序 列 、RNA 序 列 和 蛋白质 序列 ) 可 以 看 作 是 由 固定 的 字母 表 中 的 字母 所 
组 成 的 字符 串 ,两 条 序列 s 和 t 的 比 对 可 以 简单 的 表示 为 : 把 s 和 t 这 两 条 序列 上 下 排列 起 来 ,在 
某 些 位 置 插入 空位 ,然后 依次 比较 它们 在 每 一 个 位 置 上 字符 的 匹配 情况 ,从 而 找 出 使 这 两 条 
序列 产生 最 大 相似 度 得 分 的 排列 方式 和 空位 插入 方式 。 


(一 ) 点 阵 图 法 


点 阵 ( dot matrix ) 分 析 是 一 种 简单 的 图 形 显 示 序 列 相 似 性 的 方法 。 将 两 条 待 比较 的 序 
列 分 别 放 在 矩阵 的 XY 轴 上 ,从 下 往 上 和 从 左 到 右 比 较 , 当 对 应 行 与 列 的 字符 匹配 时 , 则 在 和 矩 
阵 对 应 的 位 置 上 打点 。 逐 个 比较 所 有 的 字符 对 ,最 终 形成 一 个 点 和 矩阵。 点 阵 图 可 以 应 用 于 
自身 比 对 ,用 来 寻找 序列 中 的 正 辐 或 反 回 重复 序列 ,查找 和 蛋白质 的 重复 结构 域 ,相同 残 基 重 
复出 现 的 低 复 杂 区 和 RNA 二 级 结构 中 的 互补 区 域 。 同 时 点 阵 图 也 可 以 对 两 条 序列 的 相似 性 
做 整体 的 估计 。 点 阵 分 析 具 有 直观 性 和 整体 性 的 优点 ,而且 不 依赖 于 空位 参数 ,可 以 寻找 两 
序列 间 所 有 可 能 的 残 基 匹 配 。 点 阵 分 析 人 允许 随 时 动态 地 改变 最 高 和 最 低 界 限 值 ,可 以 用 来 
搜索 区 分 信号 和 背景 标准 的 严格 程度 。 总 之 ,点 阵 分 析 不 依赖 任何 先决 条 件 ,是 一 种 可 用 于 
初步 分 析 的 理想 工具 。 但 是 点 阵 分 析 具 有 不 能 很 好 地 兼容 打分 矩阵 滑动 窗口 和 与 国 值 的 
选择 过 于 经 验 化 \ 信 品 比 低 和 不 适合 进行 高 通 量 数据 分 析 等 缺点 。 和 常用 的 点 阵 分 析 工 具 见 
#21-11, 


表 1-11 常用 的 点 阵 分 析 工 具 


<i 
* 


工具 名 Peer mur c NAME Bu dtes 备注 
DNA Strider http: //www.cellbiol.com/soft.htm Mac 
Dotter http: //sonnhammer.sbc.su.se/Dotter.html Unix/Linux , X- Windows 
Dotlet http: //myhits.isb-sib.ch/cgi-bin/dotlet Web 
DNAdot http: //arbl.cvmbs.colostate.edu/molkit/dnadot/ Web 


(=) 动态 规划 算法 


对 于 两 条 序列 的 比 对 问题 人 们 提出 了 很 多 算法 ,其 中 基于 动态 规划 的 算法 是 目前 最 基 
本 的 算法 。1970 年 Saul Needleman 和 Christian Wunsch 两 人 首先 将 动态 规划 算法 用 于 两 条 序 
列 的 全 局 比 对 。 全 局 比 对 是 指 将 参与 比 对 的 两 条 序列 里 面 的 所 有 字符 进行 比 对 。 全 局 比 对 
主要 被 用 来 寻找 关系 密切 的 序列 。 后 来 ， Temple Smith 和 Michael Waterman 两 人 于 1981 年 对 
双 序 列 的 局 部 比 对 进行 了 研究 ,产生 了 Smith-Waterman 算 法 。 这 两 种 算法 均 可 以 用 于 核酸 
和 蛋白质 序列 。 在 给 定 空位 罚 分 和 替换 和 矩阵 情况 下 ,它们 总 是 能 给 出 具有 最 高 ( 优 ) 联 配 值 
的 联 配 。 但 是 ,这 个 联 配 并 不 需要 达到 生物 学 意义 上 的 显著 水 平 。 动 态 规划 首先 对 于 如 下 
假定 的 序列 : 

(1 )a,b 是 使 用 某 一 字符 集 的 序列 ( DNA BEE Jot ); 
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(2)m = aff KE; 

(3)n=b 的 长 度 ; 

(4)S(i7 门 是 按照 某 蔡 换 记 分 矩阵 得 到 的 前 组 al 7... 引 与 bl 7..J 最 大 相似 性 得 分 ; 
(5)w(c, d) 是 字符 c 和 d 按 照 蔡 换 记分 矩阵 计算 的 得 分 。 

可 按照 某 种 记分 规则 建立 得 分 和 矩阵 : 

S(i,0)=0, Oxizxm 

8(0,j)=0, O<j<n 














0 
S(i-1,j -1)- w(aj,b, d 
S (i, j) = max d | via PS (1-2) 
S(i-1,j)+w(a,,-) 插入 
S(i, j-1)+w(-,b,) 缺失 


例如 ,对 于 序列 a=ACACACTA ,序列 b=AGCACACA ,记分 规则 w( 匹 配 )=+2 ;w(a,- ) 2w( -, 
b )=w( 失 配 )=-1, 则 获得 的 得 分 矩阵 如 图 1-8 所 示 。 接 着 , 反 回 搜寻 最 大 得 分 ,同时 记 下 读 
取 路 径 。 为 了 得 到 最 佳 比 对 ,必须 从 得 分 最 高 的 位 置 S i,j ) 开 始 , 在 矩阵 的 (i-1,7),(i,j-1) 
或 (i-1, j-1 ) 位 置 中 寻找 下 一 个 最 大 得 分 位 置 , 记 下 路 径 ( 画 箭头 ), 当 两 个 (或 三 个 ) 位 置 
得 分 相等 时 , 取 对 角 线 方向 , 依 此 规则 搜寻 ,直至 到 起 点 (0,0 )。 在 本 例 中 ,最 大 得 分 对 应 
的 位 置 分 别 为 (8,8)(7,7)(7,6)(6,5)(5,4)(4,3)(3,2)(2,1)(1,1 RICO O 2C 


1-9 ). 

一 A C A C A G T A 一 A C A C A ft T A 
- 0 0 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0 0 0 
A 0 2 l 2 ] 2 ] 0 2 A 0 2 1 2 l 2 I 0 2 
G 0 ] I l 1 l l 0 l G O0 1 1 l l l I 0 l 
S C O 3 2 3 2 3 2 l SE C 0 s 2 3 2 3 2 l 
A 0 2 2 5 4 5 4 3 4 A O0 2 gg 4 5 4 3 4 
C 0 l 4 4 7 6 7 6 5 C © l 4 ha 6 7 6 5 
A 0 2 3 6 6 9 8 7 8 A 0 2 3 6 &. m 8 8 
C 0 ] 4 5 8 8 11 10 9 C 0 ] 4 5 8 at 
A 0 2 3 6 7 10 10 10 12 A 0 2 3 6 10 "12 

图 1-8 —^4-f8 42 4EBF 3: 49] 图 1-9 FFP 4EBE SS 3: 


最 后 构建 最 佳 匹配 。 在 读 取 路 径 中 要 求 : 对 角 线 对 应 匹配 (或 失 配 上 下 箭头 对 应 删 
ER .左右 箭头 对 应 搬入。 依 此 规则 ,我 们 可 以 得 到 本 例 的 最 佳 匹配 为 : 

序列 a = A - C A C A C T A 

序列 b = A G C A G A C = A 

现在 看 算法 的 复杂 度 。 从 所 使 用 的 数据 结构 本 身 及 其 计算 过 程 来 看 ,序列 两 两 比 对 基 
本 算法 的 空间 复杂 度 和 时 间 复 杂 度 都 是 0( mn )。 

动态 规划 算法 大 致 包括 : 按照 规则 建立 得 分 和 矩阵; @ 反 向 读 取 最 大 得 分 ,构建 最 佳 匹 
配 。 每 一 步 都 包括 若干 子 步 又 。 按 照 规则 建立 得 分 矩阵 的 流程 是 ; 
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for i=0 to length( A ) 
F(i,0)—0 
for j=0 to length( B ) 
F(0,/)—0 
for i=1 to length( A ) 
for j= 1 to length( B ) 


| 
Choicel —— F( i-1,j-1 ) x SC ACi ), BC/)) 
Choice2 +— F( i-1,/ ) - d 
Choice3 —— F( i, j-1) 4 d 
F( i,j ) — max( Choicel , Choice2, Choice3 ) 
| 


反 回 读 取 最 大 得 分 ,构建 最 佳 匹配 流程 是 : 





AlignmentA «— "" 
AlignmentB «— "" 
i — length( A ) 
j *— length( B ) 
while ( i » 0 and j » 0) 
| 
Score —— F( i,j) 
ScoreDiag — F(i-1,j-1) 
ScoreUp — F( i,j - 1) 
ScoreLeft <— F( i - 1,7) 
if ( Score == ScoreDiag  S( A( i-1 ), B( j-1 ))) 


AlignmentA + A( i-1 )+ AlignmentA 
AlignmentB «— B( j-1 )+ AlignmentB 


} 
else if ( Score == ScoreLeft + d ) 


AlignmentA «— A( i-1 ) - AlignmentA 
AlignmentB «— "—" + AlignmentB 


i——i-1 


otherwise ( Score == ScoreUp + d ) 
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——ÀÓP 


n " 


AlignmentA «— "—" + AlignmentA 


AlignmentB «— B( j-1 )+ AlignmentB 


Jt r€4 





(=) 基于 双 序 列 比 对 的 数据 库 搜索 


一 条 序列 与 整个 数据 库 中 所 有 序列 比 对 的 过 程 可 以 看 做 是 双 序 列 比 对 的 扩展 。 本 质 
上 这 与 两 条 序列 的 比较 没有 什么 两 样 , 只 是 要 重复 成 和 上 万 次 。 但 是 要 快速 实现 数据 库 
的 搜索 并 非 易 事 。 无 论 Needleman-Wunsch 的 算法 还 是 Smith-Waterman 算 法 ,对 于 数量 不 
大 的 序列 来 说 其 运行 时 间 上 可 接受 。 对 于 大 规模 的 数据 库 搜索 ,它们 都 非常 耗 时 ,所 以 必 
须 考 虑 在 一 个 合理 时 间 内 完成 搜索 比较 操作 。FASTA 和 BLAST 是 目前 基于 局 部 相似 性 的 
数据 库 搜索 程序 。BLAST( basic local alignment search tool ,基本 局 部 联 配 搜索 工具 ) 是 基 
于 匹配 短 序列 片段 ,用 一 种 强 有 力 的 统计 模型 来 确定 未 知 序列 与 数据 库 序 列 的 最 佳 局 部 
联 配 。BLAST 算 法 本 和 号 很 亿 单 , 它 的 基本 要 点 是 序列 片段 对 ( segment pair) WBE. ATTA 
序列 片段 对 是 指 两 个 给 定 序 列 中 的 一 对 子 序列 ,它们 的 长 度 相 等 ,并且 可 以 形成 无 空位 的 
完全 匹配 。BLAST 首 先 找 出 探测 序列 和 目标 序列 间 所 有 匹配 程度 (以 得 分 计 ) 超 过 一 定 国 
值 的 序列 片段 对 ,然后 对 片段 对 根据 给 定 的 相似 性 国 值 进行 延伸 ,得 到 一 定 长 度 的 相似 性 
片段 ,最 后 给 出 高 分 值 片 段 对 ( high-scoring pairs, HSPs )。 改进 后 的 BLAST 人 允许 空位 的 插 
入 。BLAST 实 际 上 是 综合 在 一 起 的 一 组 程序 ,不仅 可 用 于 直接 对 蛋白 质 序 列 数 据 库 和 核酸 
序列 数据 库 进 行 搜索 ,而 且 可 以 将 探测 序列 翻译 成 和 蛋白质 后 再 进行 搜索 ,以 提高 搜索 结果 
的 灵敏 度 。 

大 多 数 研 究 目前 都 通过 国际 互联 网 nteret 应 用 NCBI 研 制 的 BLAST 程序 来 进行 DNA 和 和 蛋 
白质 序列 相似 性 搜索 。 用 一 组 BLAST 程 序 联 配 可 以 快速 进行 核酸 和 和 蛋白 质 序 列 库 的 相似 性 
检索 。 采 用 BLAST 的 基本 算法 编 成 了 香干 个 不 同 的 程序 ,分 别 使 用 特定 的 序列 库 和 用 于 特定 
类 型 的 输入 序列 。BLAST 家 族 包 含 的 成 员 很 多 ,提供 各 种 不 同 需 要 的 比 对 分 析 , 最 常见 也 是 
最 重要 的 五 个 成 员 分 别 是 blastn、 blastp, blastx, tblastn 和 tblastx( 表 1-12 )。 下 面 以 刚才 的 人 类 
BOAR SY BAA SG o T SR AA BI, —— — S 步 又 如 下 : 
.下载 人 类 发 状 分 裂 相 关 增 强 子 -5 重 日 序列 。 

. 登录 NCBI 主 页 http: //www.ncbi.nlm.nih.gov/。 

. 点 击 “BLAST”。 

. 对 话 框 中 输入 人 类 发 状 分 裂 相关 增强 子 -5 和 蛋白 序列 。 

. 选择 重 白 质数 据 库 Non-redundant protein sequences( nr ) (图 1-10 )。 
. 其 他 参数 使 用 默认 参数 。 

7. 点 击 BLAST 按 钮 ,得 到 数据 库 搜索 的 结果 (图 1-11 )。 点 击 感 兴趣 的 序列 可 以 得 到 序 
列 匹配 的 详细 界面 。 


ON nr A W 一 
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#21-12 BLAST 家 族 常 用 的 工具 









































程序 名 ”查询 序列 ”数据 库 ~、 2 RATE 
Blastn 核酸 核酸 用 查询 序列 逐一 搜索 数据 库 中 的 序列 
Blatp AK EAM ”用 查询 序列 逐一 搜索 和 蛋白质 数据 库 中 的 序列 
Blastx ”核酸 蛋白 质 ”将 核酸 序列 翻译 成 蛋白 质 序列 后 逐一 搜索 蛋白 质数 据 库 中 的 序列 
TBlastn 和 蛋白质 核酸 将 查询 重 白 质 序列 逐一 搜索 核算 数据 库 中 的 核酸 序列 翻译 后 的 蛋白 质 序 列 
TBlastx ”核酸 核酸 将 核酸 序列 翻译 成 蛋白 质 序列 后 逐一 搜索 核酸 数据 库 中 的 核酸 序列 翻 
Pa SE A CF P] 
Z- BLAST* My NCBI 
T Home RecentResults Saved Strategies Help 
» NCBY BLAST! blastp suite | Standard Protein BLAST 
AMICI 41:: 0s QUARE S dashes Ce more... Reset page 
Enter Query Sequence 
Enter accession number(s), gi(s), or FASTA sequence(s) & Clear Query subrange © 
IMAPSTVA RKPVVEKMERDRINSSIEQLKLLLEQEFARMQPNSKLEKADILEMAVSTLK —— pou rm 
I NSKAFVAAAGPKSLHQDYSEGYSTCLQEAVQFLTLHAASDTQNKLLYHFQRPP AAP AAP AKEPKAPGAAP | NE oom 
|PPALSAKATAAAAAAHQP ACGLYRPI To 
| | 
Or n Se 未 选择 文件 9 
Job Title MEC ee | 
Enter a a descriptive tit title for yo your ur BLAST search &» CTUM E D 
Cl Align two or more sequences 4 
Choose Search Set 
Database | Non-redundant protein sequences ( (nr) {v 9 
clean [Enter organism name or d-complations wil be suggested — | lExeiute CE 
i Enter organism common name, binomial, or tax id. Only 20 top ta taxa will be shown. @ 
et C] Models (XM/XP) 口 Uncultured/environmental sample sequences 
timet Qiity We 7 CRURA acu l isi EE nb la dito L e cae. 
| n Enter. an Entrez query to limit si search e TOR" XP 
图 1-10 输入 BLAST 查询 序列 .选择 数据 库 
Protein Sequence (166 letters) 
Gi htm aie. AT E TT 
Other reports: » Search Summary [Taxonomy resorts) [Distance tree of resulte) [Myltipie alignment | 
©Graphic Summary 


Distribution of 100 Blast Hiis on the Query Sequence € , 
Mouse-over to show define and scores. click to 





图 1-11 BLAST 查询 返回 结果 图 示 
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网 络 版 本 的 Blast 服 务 具 有 方便 ,容易 操作 ,数据 库 同步 更 新 等 优点 ,缺点 是 不 利于 操作 
大 批量 的 数据 ,同时 也 不 能 自己 定义 搜索 的 数据 库 , 只 能 对 NCBI 所 提供 的 数据 库 进 行 序列 
相似 性 分 析 ; NCBI 同 时 提供 了 可 本 地 化 安装 的 Blast 软 件 包 , 此 本 地 化 的 软件 包 人 允许 用 户 在 
自己 的 计算 机 上 安装 Blast 系 统 ,并 可 构建 自己 的 数据 库 , 大 大 提高 了 同 源 性 分 析 的 准确 性 和 
一 致 性 。 

FASTA 是 男 一 个 常用 的 基于 局 部 比 对 的 数据 库 搜索 程序 ,算法 是 由 Lipman 和 Pearson 
于 1985 年 发 表 的 。 假 定 探 测序 列 s 和 目标 序列 t 是 两 个 被 比 对 的 蛋白 质 序 列 , 且 长 度 分别 为 
Islzm, ltl=n。FASTA 进 行 的 比较 由 确定 两 者 公共 的 ( 即 相 匹配 的 ) 短 片段 开始 ,这 些 短片 自称 
为 k 元 组 (k-tuple ), 短 片段 的 起 始 长 度 k 一 般 是 1~2 个 氨基 酸 (k 的 值 是 一 个 参数 , 称 ktup, 对 于 
DNA 序 列 它 通常 要 大 些 )。 首 先 扫 描 序 列 s ,产生 一 个 表 ( 称 作 查 询 表 ), 表 中 列 出 s 中 k 元 组 的 
所 有 位 置 。 然 后 扫描 序列 t, 同时 在 s 的 查询 表 中 查找 t 的 每 个 k 元 组 。 处 理 公 共 出 现 的 k 元 组 
的 结果 是 构造 一 个 动态 规划 矩阵 ,其 对 角 线 上 是 匹配 的 k 元 组 。FASTA 然 后 对 公共 k 元 组 作 
详细 的 分 析 。 当 这 些 k 元 组 在 同一 对 角 线 上 且 相 距 不 远 时 ,合并 这 些 k 元 组 ,这 些 合并 的 k 元 
组 构成 所 谓 的 区 域 ( region ), 它 们 可 被 看 做 是 BLAST 中 的 片段 对 。 根 据 区 域 中 所 含 的 匹配 或 
失 配 ,一 个 区 域 被 赋予 某 个 记分 。 接 着 ,对 奉 干 个 最 佳 区 域 用 PAM 和 矩阵 进行 重新 记分 ,这 些 
新 记分 中 的 最 佳 者 成 为 s 或 t 之 间 相 似 性 的 一 个 初步 度量 , 称 作 初 始 记 分 。 对 一 个 探测 序列 , 
它 与 数据 库 中 每 一 个 序列 都 产生 一 个 初始 记分 。 初 始 记分 然后 用 于 对 所 有 数据 库 序 列 进行 
排序 ,对 排序 最 高 的 知 干 序列 用 动态 规划 法 产生 一 个 优化 记分 ,其 过 程 与 使 用 标准 动态 规划 
法 进行 序列 比 对 十 分 相似 。 对 于 短片 段 起 始 长 度 的 选择 ,小 的 ktup 增 加 敏感 性 而 大 的 ktup 增 
加 特异 性 。 
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一 、 多 序列 比 对 简介 > > 


多 序列 比 对 ( multiple sequence alignment ) 是 两 个 以 上 DNA 序 列 、RNA 序 列 或 重 白质 序 
列 的 比 对 ,目标 是 发 现 多 条 序列 的 共性 。 双 序列 比 对 是 序列 分 析 的 基础 。 然 而 ,对 于 构成 基 
因 家 族 的 成 组 序列 来 说 ,我 们 要 建立 多 个 序列 之 间 的 关系 ,这 样 才能 揭示 整个 基因 家 族 的 特 
征 。 多 序列 比 对 在 阐明 一 组 相关 序列 的 重要 生物 学 模式 方面 起 着 相当 重要 的 作用 。 

与 双 序 列 比 对 比较 ,多 序列 比 对 具有 更 广泛 的 重要 应 用 ,包括 以 下 几 个 方面 : 

1. 获得 共性 序列 ”由 多 序列 比 对 所 得 到 的 与 所 有 序列 距离 最 近 的 序列 称 为 这 些 序列 的 
共性 序列 (consensus sequence ), JEFE Ax AEE A A PH PETSUES ALS PRAT GT, 
用 于 识别 具有 高 相似 度 的 序列 。 

2. 厅 列 测序 ”如果 一 个 DNA 或 蛋白质 序列 被 多 个 机 构 测 序 , 则 测序 结果 在 某 些 核 并 酸 
或 提 基 酸 上 可 能 存在 差异 ,对 这 些 测序 结果 进行 全 局 多 序列 比 对 可 发 现 这 些 差异 之 处 ,形成 
的 共性 序列 理论 上 最 为 接近 真实 的 序列 。 其 次 ,对 包含 重奏 区 的 多 个 测序 序列 进行 局 部 多 
序列 比 对 可 发 现 这 些 重奏 区 ,实现 测序 序列 的 拼接 。 另 外 ,一 个 类 似 的 应 用 是 由 表达 序列 标 
45 ( expressed sequence tag, EST ) HRR KERRE contig ) 甚 至 完整 的 mRNA。 

3. 突变 分 析 ”同一 种 系 不 同 个 体 的 基因 组 存在 因 突 变 而 产生 的 差异 ,最 常见 的 是 单 核 
甘酸 多 态 性 分 析 , 它 分 析 同 一 种 系 不 同 个 体 基 因 组 中 单个 核 背 酸 的 包括 置换 缺失 和 插入 在 
内 的 变异 。 这 些 差异 可 通过 多 序列 比 对 进行 揭示 。 

4. 种 系 分 析 “相近 种 系 动 植物 的 基因 和 基因 组 由 于 源 目 共同 的 直接 祖先 而 具有 高 度 的 
相似 性 ,反之 , 远 距 种 系 动 植物 的 基因 和 基因 组 由 于 源 自 不 同 的 直接 祖先 而 享有 更 少 的 相似 
性 ,这 一 事实 使 得 多 序列 比 对 常常 用 于 根据 基因 或 基因 组 序列 的 差异 判断 种 系 关 系 。 多 序 
列 比 对 通常 是 构造 种 系 树 的 第 一 步 。 

5. 保守 区 段 分 析 ”基因 组 中 功能 不 同 的 区 段 在 进化 中 面 对 不 同 的 选择 压力 ( selective 
pressure ), 即 重要 的 区 段 不 易 接 受 突变 而 非 重 要 的 区 段 易于 接受 突变 。 任 何 基 因 组 都 包含 
大 量 不 同 的 在 选择 压力 下 保持 进化 上 稳定 的 保守 区 段 。 首 先 ,编码 具有 重要 功能 重 白 质 的 
基因 高 度 保守 ,基因 中 的 外 显 子 尤其 保守 。 其 次 ,大 量 的 基因 调节 单元 ,例如 启动 子 和 增强 
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子 , 在 不 同 种 系 中 通 背 高 度 保 守 。 此 外 ,近年 来 发 现 许 多 非 编码 RNA 也 是 非常 保守 的 。 多 序 
列 比 对 是 找 出 进化 上 保守 的 这 些 区 段 的 基本 方法 。 

6. 基因 和 人 各 日 质 功 能 分 析 ”分子 生 物 学 和 发 育 生物 学 实验 是 揭示 基因 和 和 蛋白 质 功能 的 
经 典 方法 。 在 大 量 基因 和 和 蛋白 质 的 功能 得 以 揭示 和 更 多 基因 和 和 蛋白 质 的 序列 得 以 测定 后 ， 
根据 与 功能 已 知 的 同 源 基因 和 重 昌 质 进行 多 序列 比 对 来 推断 新 基因 和 重 白 质 的 功能 已 成 为 
越 来 越 普遍 的 一 个 人 研究 手段 。 

7. RNA 和 和 集 日 质 结构 分 析 类 似 地 ,可 使 用 多 序列 比 对 考察 种 系 相近 的 RNA 和 和 蛋白 
质 家 族 ,通过 结构 已 知 的 RNA 和 重 日 质 推 断 未 知 RNA 和 和 蛋白 质 的 结构 。 需 要 注意 的 是 , 核 
芽 酸 序列 和 氨基 酸 序列 的 进化 速度 比 RNA 结 构 和 蛋白质 结构 的 进化 速度 要 快 ,因此 仅 凭 
多 序列 比 对 仍 难以 确定 RNA 和 和 蛋白 质 的 结构 。 例 如 ,人 B 球 蛋白 (beta-globin ) 和 肌 球 蛋白 
(myoglobin ) 只 有 25% 的 氨基 酸 序列 相同 ,但 两 者 的 三 维 结构 却 几 乎 相同 。 

8. 基因 组 结构 分 析 ”多 序列 比 对 可 用 于 整个 基因 组 ,揭示 基因 组 的 结构 特征 和 进化 特 
征 。 随 看 越 来 越 多 基因 组 的 测序 ,多 序列 比 对 已 频 索 用 于 基因 组 结构 分 析 中 ,最 典型 的 应 用 
是 UCSC 基 因 组 浏览 左 和 Ensembl 基 因 组 浏览 硕 。 





二 、 多 序列 比 对 的 方法 》》) 


这 些 年 来 ,在 生物 信息 学 领域 提出 了 许多 关于 多 序列 比 对 的 算法 ,如 动态 规划 算法 、 浙 
进 策 略 算法 、 迭 代 法 、 基 于 一 致 性 的 方法 、 遗 传 算 法 、 模 拟 退 火 算法 、 隐 马尔 可 夫 模 型 . 星 形 比 
对 和 树 形 比 对 等 多 序列 比 对 算法 。 


(一 ) 动态 规划 算法 


动态 规划 算法 由 Needle-man 和 Wunsch 于 1970 年 提出 ,最 初 用 于 求 两 个 序列 的 最 佳 比 
对 。 当 把 动态 规划 的 基本 思想 推广 到 多 序列 比 对 时 就 是 所 谓 的 N 维 动态 规划 算法 。 由 于 动 
态 规 划 法 的 时 间 与 空间 复杂 性 太 高 ,人 们 发 展 了 该 算法 的 多 种 变 体 使 得 它们 能 够 在 合理 的 
时 间 内 找到 优化 比 对 。 变 体 之 一 是 Altschul 等 在 1989 年 引入 的 一 个 算法 , 它 能 极 大 地 缩小 k 


k 
维 动态 规 划 表 的 搜索 空间 ,其 中 心思 想 如 下 。 首 先 , 对 k 个 序列 的 a 个 配对 按 动 态 规划 法 


进行 配对 比 对 ,由 于 一 个 [序列 比 对 对 应 于 / 维 空间 动态 规划 表 中 的 一 个 路 径 ,这 些 配对 比 对 
可 看 作 是 j 难 空间 中 的 这 个 路 径 在 不 同 的 2 维 空间 中 的 投影 。 其 次 ,在 相应 的 2 维 空间 中 ,可 
以 限制 投影 所 可 能 历经 的 空间 ,从 而 限制 在 原始 的 k 维 空间 中 寻找 优化 多 序列 比 对 历经 的 路 
径 。 第 三 ,每 个 投影 定义 了 原始 / 维 空间 的 一 个 子 空间 ,这 些 子 空间 的 交汇 包含 了 K 个 序列 的 
优化 比 对 。 该 算法 通 稍 采用 SP 郴 数 计 分 ,并 使 用 动态 规划 法 搜索 子 空间 的 交汇 来 找到 多 序 
列 比 对 在 / 纵 空 间 中 的 路 径 。 一 个 关键 点 是 ,需要 确定 一 个 将 多 序列 比 对 投影 成 配对 比 对 的 
开支 上 限 , 该 开支 上 限 的 选择 应 能 保证 动态 规划 法 找到 个 序列 的 最 优 比 对 。 在 使 用 启发 式 
方法 确定 配对 比 对 的 开支 上 限时 , 若 比 对 的 质量 表明 开 文 上 限 不 够 大 , 则 应 增 大 开支 上 限 。 
但 是 ,一 味 地 增 大 开 文 上 限 并 不 能 持续 提高 多 序列 比 对 的 质量 。 由 于 该 动态 规划 法 的 变 体 
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本 质 上 属于 启发 式 算法 , 它 有 一 切 启发 式 算法 所 固有 的 缺陷 , 即 当 开支 上 限定 得 过 小 时 它 可 

能 找 不 到 最 优 比 对 ,而 当 开支 上 限定 得 过 大 时 它 所 耗费 的 时 间 可 能 与 标准 动态 规划 法 所 差 

AG.) lus 


(二 ) 渐进 策略 算法 
渐进 策略 算法 最 早 由 Feng 和 Doolittle 于 1987 年 提出 。 渐 进 多 序列 比 对 首先 使 用 动态 规 
划 法 构造 全 部 k 个 序列 的 E 个 配对 比 对 (pairwise alignment ), 然 后 以 计 分 最 高 的 配对 比 对 


作为 多 序列 比 对 的 种 子 , 按 计 分 高 低 依次 选择 序列 ,逐渐 向 已 构造 的 多 序列 比 对 中 加 入 序 
列 , 形 成 一 个 树 状 结构 的 多 序列 比 对 结果 。 

渐进 多 序列 比 对 需要 三 个 步骤 : 第 一 ,使 用 动态 规划 法 构造 每 个 序列 的 配对 比 对 , 包 
括 ClusterW 在 内 的 许多 比 对 算法 在 这 一 步 使 用 距离 矩阵 而 不 是 相似 性 矩阵 来 描述 序列 间 
的 关联 性 ; 第 二 ,由 距离 矩阵 构造 一 棵 指导 树 ( guide tree ), 树 的 两 个 主要 特征 是 拓扑 结构 
和 分 枝 长 度 , 它 一 般 并 不 被 当 作 是 种 系 树 ,只 反映 了 参与 比 对 的 多 个 序列 如 何 相关 联 ,用 
来 确定 回 正 在 进行 的 多 序列 比 对 加 入 新 序列 的 次 序 ; 第 三 ,以 计 分 最 高 的 配对 比 对 作为 多 
序列 比 对 的 种 子 , 根 据 指导 树 逐 渐 向 多 序列 比 对 中 加 入 序列 。 这 种 方法 在 质量 尤其 是 计 
算 速 度 上 存储 空间 及 可 比 对 的 序列 数目 方面 比 动态 规划 算法 更 优良 。 在 比 对 过 程 中 遵 
循 “ 一 旦 引入 一 个 空位 则 始终 保持 这 个 空位 ”的 原则 。 为 了 最 大 程度 地 残 基 匹 配 , 比 对 过 
程 中 采用 可 接受 的 点 突变 矩阵 PAM。 不 仅 允 许 相同 残 基 的 匹配 ,而 且 人 允许 相似 残 基 的 匹 
配 。 其 缺点 是 不 能 保证 比 对 的 结果 是 数学 上 的 最 优化 比 对 。 首 先 , 渐 进 多 序列 比 对 可 能 
会 被 一 些 伪 强 的 、 实 际 上 是 坏 的 种 子 所 误导 。 如 果 一 开始 选择 的 两 条 序列 的 配对 比 对 与 
实际 上 的 最 优 多 序列 比 对 不 一 致 ,那么 初始 的 配对 比 对 中 的 错误 在 整个 多 序列 比 对 构造 
过 程 中 将 始终 存在 并 持续 传播 。 其 次 ,在 比 对 的 任何 阶段 出 现 失 配 时 (例如 在 配对 比 对 中 
加 入 空位 ), 这 些 失 配 不 是 被 纠正 而 是 被 传播 到 最 终结 果 。 再 者 ,更 糟糕 的 是 配对 比 对 可 
能 无 法 组 成 一 个 相 容 的 多 序列 比 对 (图 1-12 )。 以 上 因素 使 得 渐进 多 序列 比 对 对 于 距离 非 
常 接近 的 序列 效果 很 好 ,而 当 序列 间 的 距离 较 远 时 效果 不 佳 。 后 期 的 渐进 多 序列 比 对 软 
件 对 这 些 缺 陷 进 行 了 改进 。 
















AAAATTTT---- 
—---TTTTGGGG 


AAAATTTT-—-— AAAATTTT---- 
AAAA----GGGG  ----TTTTGGG 


———--AAAATTTT 
GGGGAAAA-—-— 
AAAATTTT--—-- 
----TTTTGGGG 
\AAA-—--GGGG 








AAAAGGGG 
AAAA--—--GGGG —---GGGGAAAA 


———FTTICGEe TETICOUD-— 


图 1-12 三 个 序列 的 配对 比 对 未 必 总 能 组 合成 一 个 多 序列 比 对 
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(=) 迭代 算法 


在 渐进 多 序列 比 对 中 ,一 个 序列 一 经 加 入 构造 的 比 对 结果 其 配对 比 对 便 不 再 重新 处 理 ， 
因此 对 在 渐进 比 对 过 程 中 发 现 的 错误 或 不 适当 的 记分 没有 机 会 进行 更 正 ,这 提高 了 比 对 的 
运行 效率 但 牺牲 了 准确 性 。 当 起 始 的 比 对 处 理 的 是 较 远 距离 的 序列 时 ,其 蕴含 的 错误 对 多 
序列 比 对 的 影响 尤其 严重 。 一 类 称 作 迭代 法 的 方法 能 够 到 服 渐进 多 序列 比 对 的 这 个 不 足 。 
迭代 法 的 基本 过 程 是 先 用 渐进 多 序列 比 对 产生 一 个 初始 结果 ,再 对 序列 的 不 同 子 集 进 行 反 
复 比 对 并 利用 这 些 绪 果 重 新 进行 多 序列 比 对 , 目标 是 改进 多 序列 比 对 的 总 计 分 什 。 迭 代 法 
常 肖 使 用 随机 搜索 或 者 通过 对 比 对 结果 进行 重 排 来 寻找 更 优 的 解 , 迭 代 持 续 至 比 对 记分 值 
不 再 提高 。 


(四 ) 基于 一 致 性 的 方法 


渐进 多 序列 比 对 的 基本 方法 是 先 产 生 全 部 的 配对 比 对 ,然后 根据 配对 比 对 的 计 分 高 低 
未 渐 构 造 多 序列 比 对 。 基 于 一 致 性 的 方法 采用 了 男 一 种 利用 序列 信息 的 方式 。 这 里 ,一致 
性 指 的 是 对 于 序列 x、y 和 z, 如 果 x; 比 对 于 z 且 z 比 对 于 y, 则 x 应 比 对 于 y,。 因 此 ,基于 一 致 性 方 
法 的 基本 特点 是 充分 利用 多 个 序列 间 的 比 对 信息 对 配对 比 对 进行 更 合理 的 计 分 。 例 如 , 根 
据 x; 和 yy 同时 比 对 于 zi 而 调整 x, 和 yy 的 比 对 计 分 ,如 果 序 列 x 中 的 字符 x; 比 对 于 序列 y 中 的 字符 y, 
的 似 然 率 ( likelihood ) 为 P( Xi~ yl x, y ) 则 有 








一 一 0 


P(x, y. |x, y, ze $^ P(x, ~ E, x z)P (y, ~ Z | Y2) (1-3) 
k 


基于 一 致 性 的 方法 在 多 序列 比 对 中 对 每 对 序列 中 的 每 对 字符 计算 如 上 的 似 然 率 。 根 据 
基准 测试 数据 的 研究 ,基于 一 致 性 方法 的 多 序列 比 对 产生 的 结果 经 常 比 渐进 多 序列 比 对 产 
生 的 结果 更 准确 。 


(五 ) 遗传 算法 


使 用 遗传 算法 的 多 序列 比 对 把 序列 打 碎 成 许多 小 片段 ,然后 反复 重组 这 些小 片段 ,重组 
过 程 中 通过 在 各 个 序列 的 不 同位 置 引 入 空位 来 优化 一 个 目标 函数 (通常 是 SP 计 分 纯 数 ), 使 
得 多 个 序列 得 以 最 优 地 比 对 。 作 为 一 种 局 发 式 算 法 ,遗传 算法 不 保证 找到 多 序列 比 对 的 最 
优 解 ,而 且 当 超过 20 个 序列 时 比 对 变 得 相当 慢 。 一 个 用 遗传 算法 对 重 晶 质 序列 进行 比 对 的 
软件 是 SAGA( sequence alignment by genetic algorithm )。 


六 ) 模拟 退火 算法 


模拟 退火 法 的 基本 原理 是 ,通过 对 一 个 由 茶 个 方法 产生 的 多 序列 比 对 进行 一 系列 重组 
而 使 比 对 进一步 优化 ,因为 这 些 重 组 有 可 能 发 现 比 原 比 对 更 优 的 比 对 。 类 似 于 遗传 算法 ER 
拟 退 火 法 也 最 大 化 一 个 类 似 于 SP 计 分 函数 的 目标 函数 ,用 于 比 对 的 定量 评 佑 。 妇 外 , 它 还 
使 用 一 个 “温度 因子 ”( 模 拟 退 火 法 名 称 的 由 来 ) 来 决定 重组 的 速率 和 每 个 重组 发 生 的 似 然 
性 。 在 典型 的 应 用 中 ,高 重组 率 低 似 然 性 和 低 重 组 率 高 似 然 性 交换 使 用 ,前 者 用 于 处 理 序 列 
中 的 远 距 离 区 段 而 后 者 用 于 处 理 序列 中 的 局 部 区 段 。 一 个 使 用 模拟 退火 法 的 软件 是 MSASA 


( multiple sequence alignment by simulated annealing )。 


第 一 章 ”序列 比 对 与 序列 特征 分 析 47 一 
CHAPTER 1 SEQUENCE ALIGNMENT AND ANALYSIS OF SEQUENCE CHARACTERISTICS 


(七 ) 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 是 一 类 概率 模型 ,组 成 一 个 隐 马 尔 可 夫 模 型 的 要 素 包 括 : 一 系列 状 
态 、 每 个 状态 间 的 转换 概率 、 每 个 状态 输出 每 个 字符 的 概率 以 及 由 状态 输出 的 字符 所 组 
成 的 序列 。 在 基于 隐 马 尔 可 夫 模 型 的 多 序列 比 对 中 , DNA 序 列 和 和 蛋白 质 序 列 可 看 作 是 由 
不 同 的 状态 所 产生 的 输出 所 构成 的 。 当 把 一 个 碱 基 或 一 个 氨基 酸 表示 为 一 个 节点 并 由 
此 把 要 比 对 的 多 个 序列 用 图 表示 时 (这 种 图 称 有 问 无 环 图 directed acyclic graph 或 偏 序 图 
partial-order graph, 图 1-13 ), 多 序列 比 对 相当 于 对 图 进行 简 并 ,把 每 列 中 所 有 相同 的 字符 
归于 一 个 节点 中 。 特 别 是 ,大 在 一 个 列 里 所 有 的 序列 均 有 相同 的 字符 , 则 它 在 有 辐 无 环 图 
中 仅 被 编码 成 一 个 节点 ; 奉 一 个 节点 的 下 一 列 有 7 个 不 同 的 字符 , 则 该 节点 有 za 个 向 外 的 导 
癌 这 些 字符 的 连接 。 男 外 ,一 个 模型 对 空位 、 匹 配 和 失 配 的 每 个 可 能 组 合 都 赋予 一 个 概率 。 
找 出 最 优 比 对 相当 于 找 出 最 小 公共 超 图 ( minimal common supergraph ) (图 1-13 )。 在 这 种 
隐 马 尔 可 夫 模 型 里 ,可 观测 到 的 状态 由 一 个 个 待 比 对 序列 的 列 所 揭示 ,而 隐 含 的 状态 表征 
了 这 些 序列 的 祖先 序列 或 共性 序列 。 由 于 存在 庞大 的 可 能 状态 序列 ,一 一 搜索 这 些 序列 
不 切实 际 ,求解 这 类 隐 马 尔 可 夫 模 型 的 方法 是 所 谓 的 Viterbi 算 法 , 它 也 是 一 个 动态 规划 
法 的 算法 s 基于 不 同 的 隐 马 尔 科 夫 模 型 ,人 们 开发 了 多 个 在 计算 效率 和 应 用 规模 方面 有 
所 不 同 的 软件 ,正确 地 使 用 不 同 的 隐 马 尔 可 夫 模 型 要 比 正确 地 使 用 不 同 的 渐进 多 序列 比 
对 软件 复杂 。 最 简单 的 软件 可 能 是 POA( partial-order alignment ), 而 一 个 风格 类 似 但 功 


pll=x 1 p22= x2 p33= x 3 





HM ig p23=y2 
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图 1-13 隐 马 尔 科 夫 模 型 和 三 个 蛋白 质 序 列 PHSFTYVMT、 PGSFTYW, 
RFTGFW 的 最 小 公共 超 图 
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能 更 广 的 软件 是 SAM( sequence alignment and modeling system ), EW, i2 H1 3 4& maa 
构 预测 。 使 用 隐 马 尔 可 夫 模 型 进行 多 序列 比 对 的 长 处 包括 它 能 对 序列 个 数 有 较 高 要 求 。 
当 序 列 间 一 致 性 较 高 时 ,需要 20~50 个 序列 进行 多 序列 比 对 ,而 当 序列 间 有 较 大 变异 时 ， 
可 能 需要 多 达 100 个 序列 来 进行 可 靠 的 多 序列 比 对 。 


( 八 ) 星 形 比 对 和 树 形 比 对 


星 形 比 对 是 简单 地 基于 一 个 固定 序列 与 所 有 其 他 序列 的 配对 比 对 而 建立 的 ,这 个 固定 
序列 是 星 的 中 心 。 令 si… ,si 是 需 比 对 的 k 个 序列 ,为 构造 一 个 星 比 对 ,首先 需 挑 选 一 个 中 心 
序列 s., 然 后 对 每 个 下 标 不 等 于 c 的 序列 s 使 用 动态 规划 法 作 s, 与 5 的 双 序列 比 对 ,费时 O( kn) 
(假定 序列 长 均 为 n )。 接 着 遵循 “一旦 引入 一 个 空位 则 始终 保持 这 个 空位 ” 的 原则 将 这 些 配 
对 比 对 向 s 汇 集 ,在 此 过 程 中 不 断 地 往 s. 中 加 入 空位 以 适 配 新 加 入 的 序列 。 中 心 序列 的 选择 
是 星 比 对 的 关键 ,一 个 方法 是 逐个 测试 多 个 候选 序列 ,择优 而 取 , 另 一 个 方法 是 计算 全 部 配 
对 比 对 ,然后 选择 使 .Similariby(s.,.) 最 大 的 序列 为 中 心 序列 。 


当 需 要 比 对 的 序列 可 构成 一 棵 进化 树 时 ,可 以 根据 树 的 边 所 对 应 的 配对 比 对 计算 全 
部 序列 整体 的 相似 性 ,而 不 是 用 SP 函数 计算 配对 比 对 的 相似 性 。 具 体 方法 是 ,假定 有 kK 个 
序列 和 一 个 恰 有 k 个 叶子 的 树 , 则 树叶 与 序列 具有 一 一 对 应 性 。 如 果 对 树 的 每 个 内 部 节点 
指派 一 个 序列 ,就 能 计算 每 个 边 的 权 , 它 是 与 该 边 相 连 的 两 个 节点 所 对 应 的 两 个 序列 间 的 
相似 性 。 树 的 计 分 , 即 全 部 序列 整体 的 相似 性 ,是 所 有 边 的 权 的 和 。 树 比 对 的 任务 是 找 出 
一 个 能 使 树 记 分 最 大 的 内 部 节点 的 指派 ( 即 为 每 个 内 部 节点 指派 一 个 序列 )。 树 比 对 的 一 
个 简单 例子 是 图 1-14 ,通过 指派 序列 CT 给 内 节点 zx 和 序列 CG 给 内 节点 了 ,得 到 一 个 树 计 分 
6, 计 算 该 计 分 的 规则 是 如 果 a=b 则 p( a, b ) =1 ,否则 为 0 ; pCa, -= )=-1。 根 据 该 规则 ,连接 
叶子 序列 CAT 和 内 部 序列 x=C7 的 边 的 权 值 是 1, 而 连接 叶子 序列 CG 和 内 部 序列 y=CG 的 边 
的 权 是 2。 





图 1-14 一 个 包含 四 个 序列 的 树 比 对 


三 、 多 序列 比 对 常用 工具 和 数据 库 >> 


表 1-13 和 表 1-14 分 别 列 出 了 常见 的 多 序列 比 对 的 软件 和 数据 库 。 
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X1-14 常见 的 多 序列 比 对 数据 库 





ae Oe aa ee RP 
BLOCKS 类 隐 与 模型 库 ， m" http: //blocks.fherc.org/ 
InterPro ik f PROSITE, PRINTS, ProDom http: //www.ebi.ac.uk/interpro/ 

Pfam, SMART, TICRfam 的 资源 

CDD 保守 结构 域 数 据 库 http: //www.nebi.nlm.nih.gov/Structure/cdd/cdd.shtml 
Pfam 隐 马 模型 库 http: //pfam.sanger.ac.uk/ 
PRINTS SwissProt/TrEMBL 的 蛋白 指纹 http: //bioinf.man.ac.uk/dbbrowser/PRINTS/index.php 
PROSITE 蛋白 质 模 体 字典 http: //prosite.expasy.org/ 


(—) CLUSTAL W 


CLUSTAL W 软 件 是 一 个 目前 最 为 普遍 使 用 的 多 序列 比 对 程序 ( http: //www.ebi.ac.uk/ 
Tools/msa/clustalw2/ ), 采 用 渐进 的 多 序列 比 对 方法 , 先 将 多 个 序列 两 两 比 对 构建 距离 矩阵 ， 
反映 序列 之 间 两 两 关系 ; 然后 根据 距离 矩阵 计算 产生 系统 进化 指导 树 , 对 关系 密切 的 序列 
进行 加 权 ; 然后 从 最 紧密 的 两 条 序列 开始 ,逐步 引入 邻近 的 序列 并 不 断 重 新 构建 比 对 ,直到 
所 有 序列 都 被 加 入 为 止 。CLUSTAL 又 程 序 有 很 多 版 本 ,可 以 基于 UNIX、D0OS 和 WINDOWS 
等 多 种 操作 平台 同时 被 许多 常用 的 序列 分 析 软 件 所 集成 。 从 ftp: //ftp.ebi.ac.uk/pub/software/ 
clustalw2/ 地 址 可 以 得 到 它 的 不 同 版 本 。ClustalW 的 在 线 服务 界面 见 图 1-15, 目 前 它 的 最 高 版 


ClustalW2 - - Multiple Sequence Alignment - 


ClustalW2 is a general purpose multiple sequence alignment program for DNA or proteins. 


New version! Clustal Omega is now available for protein sequences - give it a try! 


Use this tool 


STEP 1 - Enter your input sequences 
Enter or paste a set of | Pre Protein ~ sequences in any supported format 


re ———————————————————————————————————————— 


| | 
| i 
| 

I 

|| 





| 
| 
| 


Or, upload a file: Ir 未 选择 文件 


et or 


STEP 2 - Set your Pairwise Alignment Options 
Alignment Type: © Slow O Fast 








meen RL RN na ae ne for that reason, are not visible. 
ETEN: bt MICE E ^ 


— —Ó — M9 ae ~ 一 "一 — ne eee — M —— — —— —————— ———— — —— — — — —— 


STEP 3 - Set your Multiple Sequence Alignment Options 
The default settings will fulfill the needs of most users and, for that reason, are not visible. 
| More options... | (Click here, if you want to view or change the default settings.) 


图 1-15 ” ClustalW 的 在 线 服 务 界面 
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本 是 2.1。 对 于 大 多 数 使 用 者 来 说 ,普遍 采用 的 是 运行 于 WINDOWS 界 面 的 版 本 CLUSTAL X. 
目前 ,该 程序 的 最 新 版 本 是 CLUSTAL X 2.1。 该 程序 能 支持 7 种 输入 序列 格式 。 当 序列 中 超 
过 85% 是 A, C, G, T, U, N 时 ,程序 自动 认为 这 是 个 核酸 序列 ,否则 认为 是 重 日 质 序列 ,通常 
使 用 者 采用 Fasta 格 式 。 例 如 ,通过 NCBI 的 Entrez 工 具 检 索 分 别 得 到 人 ( Homo sapiens )./]NER. 
( Mus musculus )、 大 鼠 ( Rattus norvegicus ) 和 鸡 ( Gallus gallus ) 等 四 种 动物 的 发 状 分 裂 相 关 
增强 子 -5 集 日 序列 ,将 这 些 序列 以 FASTA 格 式 投入 到 CLUSTAL W 界 面 输 入 框 中 ,点 击 , 得 到 
多 序列 比 对 结果 见 图 1-16。 





a Help i J 2 4 l 4 
= FAQ ClustalW2 Results 
= Jalview Result Summary Guide Tree Submission Details Submit Another Job 


Alignment 
» Related Applications 


Download Alignment File Show Colors 
Multiple Sequence 


Alignment CLUSTAL 2.1 multiple sequence alignment 
Phylogeny 

gi [3913838 | sp |P70120. 1 |HESS_mo MAPSTVAVEMLSPKEKNRLRKPVVEKMRRDRINSSIEQLKLLLEQEFARM 50 

gi [547630 | sp |Q03062. 1 |HESS_RAT MAPSTVAVEMLSPKEKNRLRKPVVEKMRRDRINSSIEQLKLLLEQEFARM 50 

gi |74745795 | sp |QSTAS9. 1 |KESS XH MAPSTVAVELLSPKEKNRLRKPVVERMRRDRINSSIEQLKLLLEQEFARM 50 

gi 160101663 | gb |AAK13956. 1 | MAPSALSLEILTPKEKNRLRKPIVEKLRRDRINSSIEQLKLLLEKEFQRM 50 
EEK EK EERE EEK EERE EEE KK KE 

gi [3913838 | sp |P70120. 1 |HESS_MO QPNSKLEKADILEMAVSYLKHSKAF AAAAGPKSLHQDYSEGYSWCLQEAV 100 

gi [547630 | sp |Q03062. 1 |HESS_RAT QPNSKLEKADILEMAVSYLKHSKAF AAAAGPKSLHQDYSEGYSWCLQEAV 100 

gi 174745795 | sp |Q5TA89. 1 |HESS_H QPNSKLEKADILEMAVSYLKHSKAFVAAAGPKSLHQDYSEGYSWCLQEAV 100 

gi 160101663 | gb |AAX13956. 1 | QPNSKLEKADILEMTVSYLKYSRAFAASA--KSLQQDYCEGYAWCLKEAL 98 
soookootoiotototototolok 7 olololok ok colo ook IKKA oa aK ook: R $ 

gi [3913838 | sp |P70120. 1 |HESS_mo QFLTLHAA-SDTQMKLLYHFQRPP-APAAPAKEPPAPGAAPQPARSSAKA 148 

gi [547630 | sp |Q03062. 1 [HESS RAT QFLTLHAA-SDTQMKLLYHFQRPP-APAAPVKETPTPGAAPQPARSSTKA 148 

gi |74745795 | sp |95TA69. 1 |HESS QFLTLHAA-SDTQMKLLYMFQRPPAAPAAPAKEPKAPGAAPPPALSAKAT 149 

gi [60101663 | gb |AAX13956. 1 | QFLSLHSANTETQMKLICHFQRSQ-—-AMPKDSGSPSAS----TSTHQP 140 
ee EEK OOK ”水 来 来 来. x Biu 9,9, +: š 

gi [3913838 | sp |P70120. 1 |HES5_MO AAAAVSTSRQPACGLWRPW 167 

gi [547630 | sp |Q03062. 1 |HESS_RAT AAS-VSTSRQSACGLERPY 186 

gi |74745795 | sp |Q5TA89. 1 |HESS AAA--AAAHQPACGLYRPY 166 

gi [60101663 | gb |AAX13956. 1 | SAK--QTPVKPSCHLYRPY 157 
SX s. 1. DW, dao 

图 1-16  ClustalW&3 2 Æ Fi rt xy 2x X. 
(二 ) MUSCLE 


目 2004 年 , MUSCLE( multiple sequence alignment by log—expectation, http: //www.ebi.ac.uk/ 
Tools/msa/muscle/ ) 由 于 其 准确 性 和 出 色 的 速度 而 成 为 一 个 流行 的 用 于 大 量 序列 多 序列 比 对 
的 软件 。MUSCLE 的 在 线 服务 界面 如 图 1-17 所 示 。 据 报道 ,使 用 桌面 计算 机 MUSCLE 可 以 在 
21 秒 内 完成 1000 个 长 度 为 282 的 和 蛋白质 序列 的 比 对 。MUSCLE 的 方法 分 为 两 个 步骤 。 首 先 ， 
使 用 渐进 多 序列 比 对 产生 一 个 初始 结果 ,其 中 含有 根据 每 对 序列 的 相似 性 计 分 构造 的 一 标 
指导 树 。 其 次 ,重新 计算 相似 性 计 分 , 据 此 改进 指导 树 并 再 用 渐进 多 序列 比 对 产生 一 个 更 新 
的 结果 。 这 一 过 程 迭代 地 进行 ,而 算法 根据 新 计算 的 SP 计 分 值 是 否 增加 而 决定 是 接受 还 是 
拒绝 新 产生 的 比 对 结果 。 


(=) ProbCons 
基于 一 致 性 的 多 序列 比 对 软件 ProbCons( probabilistic consistency-based multiple alignment, 


http: //probcons.stanford.edu/ )。ProbCons 的 在 线 服 务 界面 见 图 1-18。ProbCons 分 五 步 进行 重 
日 质 多 序列 比 对 。 第 一 ,对 每 对 序列 中 的 每 对 字符 计算 似 然 率 ,得 到 一 个 似 然 率 矩阵 。 第 二 ， 
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MUSCLE - Multiple Sequence Alignment 


MUSCLE stands for MUltiple Sequence Comparison by Log- Expectation. MUSCLE is claimed to achieve both 
better average accuracy and better speed than ClustalW2 or T-Coffee, depending on the chosen options. 


Use this tool 


STEP 1 - Enter your input sequences 
Enter or paste a set of sequences in any supported format 








| 

| 

| | 
| 

L 


| Or upload a file: 未 选择 文件 
STEP 2 - Set your Parameters 


| OUTPUT FORMAT: [Pearson/FASTA | 


The default settings will fulfill the needs of most users and, for that reason, are not visible 


(Click here, if you want to view or change the default settings ) 


STEP 3 - Submit your job 
[ ] Be notified by email (Tick this box if you want to be notified by email when the results are available) 





Submit 


图 1-17 MUSCLE Z X JR 4-Jf- i 


PROBCONS 


Probabilistic Consistencv-based Multiple 
Alignment of Amino Acid Sequences 





PROBCONS is an efficient protein multiple sequence alignment program, which has demonstrated 
a statistically significant improvement in accuracy compared to several leading alignment 
tools. 


The email server is currently down. In the meantime, please try the COHTRAlign 
server web interface. 





BASIC PARANETEKS 


E-mail address 
E-mail address (again) | 
Input sequence file 未 选择 文件 
ee = ADDITIONAL OPTIONS = 


Consistency reps (2 | 


Iterative refinement 上 


100 + 
reps - 


Pre-training reps o v 


Output format ONFA C CLUSTALV 


CONPUTE ALIGNEENT 


图 1-18 ProbCons 的 在 线 服务 界面 
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用 动态 规划 法 计算 每 个 配对 比 对 的 预期 精度 ( expected accuracy ), 它 是 得 到 正确 比 对 的 字符 
数 除 以 较 短 序列 的 长 度 , 计 分 根据 上 述 条 件 概 率 公式 计算 而 不 采用 通常 的 PAM 或 BLOSUM 
抢 阵 , 且 空 位 罚 分 设 为 0。 第 三 ,根据 相关 条 件 概率 的 计算 重新 调整 配对 比 对 的 计 分 ,这 一 步 
用 到 了 由 多 个 配对 比 对 揭示 的 序列 中 字符 的 保守 性 ,产生 更 准确 的 对 替换 的 记分 。 第 四 ,用 
分 层 聚 类 法 ( hierarchical clustering ) 构造 一 棵 基于 相似 性 而 不 是 距离 的 期 望 准确 性 指导 树 。 
第 五 ,根据 该 期 望 准确 性 指导 树 对 所 有 的 序列 进行 渐进 性 比 对 ,方法 如 同 ClusterW。 在 这 些 
步骤 之 后 ,还 可 进一步 用 和 迭代 法 进行 优化 。 


(四 ) MultAlin 








MultAlin 是 一 个 基于 Web 服 务 的 程序 ,可 登录 http: //www-archbac.u-psud.fr/genomics/ 
multalin.html 上 执行 多 序列 比 对 。MultAlin 方 法 也 是 从 一 系列 的 两 两 比 对 开始 ,计算 出 相似 
性 分 值 ,再 根据 这 些 分 数值 进行 分 层 聚 类 。 当 序列 都 被 分 类 后 ,进行 多 序列 比 对 ,计算 出 多 
序列 比 对 中 序列 两 两 比 对 的 新 数值 ,基于 这 些 数值 ,再 做 新 分 类 ,这 个 过 程 不 病 循 环 , 下 到 相 
似 性 分 数值 不 再 上 升 为 止 。 


(五 ) Pfam 


Pfam 是 一 个 综合 的 蛋白 质 家 族 的 大 集合 ,同时 收集 了 序列 多 重 比 对 和 重 日 质 家 族 的 
profile HMMS。 丰 Pfam 数据库 中 可 以 选择 和 蛋白质 及 DNA 序 列 搜索 ,关键 词 搜索 ,也 可 以 
选择 查看 Pfam 数 据 库 的 多 序列 比 对 信息 (BROWSE PFAM ), 以 及 分 类 搜索 (TAXONOMY 
SERCH ), 还 可 以 看 到 关于 Pfam 的 帮助 信息 。 

Pfam 数 据 库 由 两 个 部 分 组 成 : Pfam-A 和 Pfam-B。Pfam -A 的 质量 比较 高 ,是 手工 编辑 、 

多 重 比 对 格式 的 蛋白 质 家 族 集合 。 对 于 每 一 个 家 族 , Pfam 提 供 了 4 种 特征 : 注释 、 种 子 比 对 、 
profile HMM 和 完全 比 对 。 完 全 比 对 可 能 很 大 , Pfam 前 20 个 家 族 的 完全 比 对 都 含有 超过 2500 
个 序列 。 种 子 比 对 含有 较 少 数量 的 代表 序列 。 虽 然 这 些 Pfam -A 的 数据 涵盖 了 在 许多 基础 
序列 数据 库 中 很 大 的 比例 ,为 了 让 更 多 的 全 面 了 解 已 知 和 蛋白 质 ,另外 一 些 从 ProDom 数 据 库 
自动 生成 的 被 称 为 Pfam - B。 虽 然 质 量 较 低 , Pfam - B 可 以 被 用 来 鉴别 功能 保守 区 域 ,尤其 
是 没有 Pfam -A 的 时 候 。 

由 于 存在 众多 的 多 序列 比 对 方法 和 软件 ,选择 合适 的 软件 既 十 分 重要 又 常常 不 易 。 可 
遵循 如 下 几 条 原则 ,首先 ,序列 的 种 类 影响 软件 的 选择 。 有 些 软件 专用 于 蛋白质 或 DNA 序 列 ， 
有 些 软 件 则 两 者 丝 可 。 比 对 和 蛋白质、cDNA 和 RNA 序 列 时 一 般 选 择 全 局 比 对 ,因为 整个 序列 
常常 是 一 个 功能 单元 ,而 比 对 DNA 序 列 时 应 考虑 glocal 或 syntenic 比 对 ,因为 DNA 序 列 中 常常 
同时 包含 保守 和 非 保守 的 区 段 。 其 次 , 比 对 的 目的 影响 软件 的 选择 。 如 果 重 白质 和 RNA 序 
列 可 能 包含 多 个 保守 的 域 ( domain ), 且 比 对 的 目的 是 发 现 这 些 域 , 则 应 选用 syntenic 比 对 。 发 
现 多 个 域 的 典型 情形 是 寻找 一 个 基因 中 被 多 个 内 含 子 分 隔 的 多 个 外 显 子 一 个 重 日 质 中 被 
多 个 非 保 守 域 分 隔 的 多 个 保守 域 和 一 段 基因 调节 区 中 被 多 个 非 保守 区 段 分 阳 的 保守 位 点 。 
第 三 ,序列 的 长 短 影 响 软 件 的 选择 。MSA 不 能 比 对 超过 500 字 符 的 序列 , 比 对 较 长 的 DNA 序 
列 可 用 MAP2 ,而 比 对 整 条 染色 体 甚 至 整个 基因 组 时 通常 使 用 UCSC 基 因 组 浏览 锅 和 Ensembl 
基因 组 浏览 器 。 第 四 ,序列 保守 性 的 程度 可 影响 软件 的 选用 。 在 许多 DNA 序 列 中 ,保守 区 段 
的 保守 性 介 乎 于 高 度 保守 的 外 显 子 和 完全 不 保守 的 junk DNA 之 间 ,不 易 由 并 规 的 记分 机 制 
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得 以 揭示 ,而 UCSC 基 因 组 浏览 器 中 的 phastCons 和 phyloP 提 供 了 可 有 效 揭示 这 种 中 度 保守 性 
的 计算 方法 。 第 五 ,种 系 关 系 的 距离 影响 软件 的 选择 。 当 序列 间 种 系 距离 较 近 时 ,许多 软件 
会 产生 大 致 相同 的 结果 ,反之 , 当 序 列 间 种 系 距 离 较 远 时 ,不 同 软件 产生 的 结果 可 能 会 有 相 
当 大 的 差异 ,使 用 基于 一 致 性 的 方法 可 充分 利用 序列 间 的 种 系 信息 。 男 外 ,对 于 比 对 远 距 离 
种 系 的 序列 ,对 敏感 性 和 选择 性 的 取舍 十 分 重要 。 敏 感性 关乎 识别 尽 可 能 多 的 同 源 区 段 , 选 
择 性 要 求 识别 的 同 源 区 段 都 是 真 的 ,不 同 的 软件 在 这 两 个 彼此 矛盾 的 指标 上 有 不 同 的 取舍 。 
第 六 , 比 对 种 系 关 系 已 知 的 序列 时 ,可 使 用 利用 指导 树 或 种 系 树 的 算法 和 软件 , 比 对 种 系 关 
系 未 知 的 序列 时 , 则 无 法 使 用 这 样 的 软件 。 对 于 全 基因 组 序列 比 对 是 否 使 用 参照 序列 以 及 
选用 什么 序列 作为 参照 序列 ,这 取决 于 具体 序列 的 特征 (包括 序列 间距 离 的 远近 )、 对 序列 的 
了 解 (包括 对 参照 序列 的 了 解 ) 比 对 的 目的 (是 否 主要 揭示 直系 同 源 区 段 ) 以 及 对 比 对 质量 
的 预 估 。 第 七 ,因为 不 同 算法 具有 不 同 的 时 间 和 空间 复杂 度 ,序列 的 数量 .长度 和 计算 机 的 
性 能 也 影响 实际 算法 和 软件 的 选用 。 
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Section 4 Analysis of DNA Sequence Characteristics 


一 、 基 因 开 放 读 码 框 的 识别 >>. 


开放 读 人 码 框 ( Open Reading Frame, ORF ) 是 DNA 上 的 一 段 碱 基 序列 ,包括 从 5” vi BH PRES 
始 密码 子 ( ATG ) 到 终止 密码 子 (TAA、TAG、TGA ) 的 编码 蛋白 质 的 碱 基 序列 。 每 个 ORF 对 
应 一 个 潜在 的 重 日 质 编码 区 域 。 对 于 任意 给 定 的 一 段 DNA 序 列 ,我 们 并 不 知道 DNA 双 链 中 
哪 一 条 是 编码 链 , 也 不 能 确定 其 编码 区 是 否 从 这 条 序列 的 第 一 个 碱 基 开始 所 以 每 条 链 都 有 
3 种 潜在 的 开放 读 码 框 ,一段 双 链 DNA 序 列 在 理论 上 就 有 6 种 潜在 的 开放 读 码 框 , 即 先 以 所 给 
的 DNA 单 链 为 模板 ,分 别 从 5” 3? 方向 的 第 1 .2、3 个 碱 基 开始 翻译 ,再 以 其 互补 链 为 模板 ， 
分 别 从 3” —5' 方 呵 的 第 1 2、3 个 碱 基 开 始 翻 译 , 得 到 另外 3 种 翻译 结果 。 正 链 上 的 3 个 读 码 
杠 称 为 “ 正 回 ” C forward ) 访 人 码 框 ,而 负 链 (或 互补 链 ) 上 的 读 码 框 称 为 “ 反 回 ” (reverse JE . 
在 6 个 潜在 的 开放 读 码 杠 中 ,一 般 选 择 中 间 没 有 被 终止 密码 子 隔 开 最 大 的 那个 读 码 框 作 为 正 
确 的 预测 结果 。 

原核 生物 的 基因 结构 比较 简单 , 绝 大 多 数 是 连续 基因 ,不 含 则 隔 的 内 含 子 。 多 数 基 因 组 
的 编码 序列 都 在 100 个 氨基 酸 以 上 。 真 核 生 物 的 基因 结构 远 比 原核 生物 的 复杂 。 真 核 生 物 
的 基因 一 般 为 断裂 基因 ( interrupted gene ), 由 内 含 子 和 外 显 子 组 成 ,编码 区 被 内 含 子 分 隔 成 
右 干 段 ,开放 读 码 框 的 长 度 变 化 范围 非常 大 ,因此 真 核 生物 基因 结构 的 预测 远 比 原核 生物 困 
难 。 但 是 ,在 真 核 生物 的 开放 读 码 框 中 ,外 显 子 与 内 含 子 之 间 的 连接 在 绝 大 部 分 情况 下 满足 
GU-AG 规 律 : 内 含 子 序列 5^ jue 8 HJ PATE H BASS AEGU,JfF HE.3! miwa HJ PA RR 
总 是 AG , 即 : 5’ -GU …… AG-3 ,这 个 规律 有 助 于 真 核 生物 开放 阅读 框 的 识别 。 

目前 国际 上 用 于 开放 读 码 框 的 预测 工具 有 很 多 ( 表 1-15 ), 这些 工 具 使 用 的 预测 方法 、 
针对 的 物种 范围 和 最 终 的 结果 都 各 有 不 同 。 这 些 预 测 工具 按照 预测 方法 的 不 同 主要 分 为 两 
A. 第 一 种 方法 以 统计 学 分 析 和 模式 识别 为 基础 ( statistics—based ) 的 方法 ,从 基因 序列 本 号 
进行 预测 ,不 需要 与 大 规模 的 数据 库 进 行 比 较 , 预 测速 度 快 , 当 缺 少 竺 分 析 物 种 的 相关 数据 
库 信 息 时 用 这 种 方法 是 比较 好 的 选择 , GENSCAN 就 是 基于 这 种 方法 建立 的 工具 ,使 用 比较 
广泛 ,预测 效率 比较 高 。 第 二 种 方法 是 以 同 源 比 对 为 基础 (homology-based ) 的 方法 ,依赖 于 
已 知 的 数据 库 来 源 、 数 量 和 质量 ,预测 的 正确 性 比 第 一 类 高 。 以 人 发 状 分 裂 相 关 增 强 子 -5 
的 mRNA 序列 和 ORF Finder 工 具 为 例 ,其 在 CenBank 中 的 编码 为 BC087840。 从 GenBank 中 下 
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载 此 序列 并 粘贴 到 ORF Finder 指 定 的 框 内 (图 1-19 ), 点击“O0rFind” 按 钮 提交 序列 ,六 框 翻 
译 的 结果 见 图 1-20, 其 中 通常 只 有 一 条 是 可 读 框 ,一 般 很 难 随机 发 现 很 长 的 ORF, 因 而 长 的 
ORF 很 可 能 意味 着 存在 CDS。 


X1-15 开放 读 码 框 识别 常用 相关 工具 列表 








工具 名 oy ee Ni ee BARM 

ORF Finder http: //www.ncbi.nlm.nih.gov/gorf/gorf.html NCBI 通用 

BESTORF http: //linux1.softberry.com/berry.phtml ? topic-b ^ Softberry A 

estorf&group-programs&subgroup-gfind 

GENSCAN http: //genes.mit.edu/GENSCAN. html MIT 脊椎 、 拟 南 芥 、 玉 米 
GlimmerM http: //cbcb.umd.edu/software/glimmer/ Maryland 原核 

Gene Finder http: //rulai.cshl.org/tools/genefinder/ Zhang’ sLab A hR FURS BERE 
GeneMark http: //opal.biology.gatech.edu/GeneMark/ GIT 通用 


ORF Finder (Open Reading Frame 
Finder) 


laxonomy Structure 


The ORF Finder (Open Reading Frame Finder) is a graphical 
analysis tool which finds all open reading frames of a selectable 
minimum size in a user's sequence or in a sequence already in the 
database. 
This tool identifies all open reading frames using the standard or 

el alternative genetic codes. The deduced amino acid sequence can be 
sequence saved in various formats and searched against the sequence 
submission support database using the WWW BLAST server. The ORF Finder should be 
and sonware helpful in preparing complete and accurate sequence submissions. It 
is also packaged with the Sequin sequence submission software. 


for data mining 


download data and 


software Enter GI or ACCESSION | i p o | 
or sequence in FASTA format 


(>gi |56789292 | gb |BC087840. 1| Homo S| 
sapiens hairy and enhancer of split | 
5 (Drosophila), mRNA (cDNA clone 

MGC: 102848 IMAGE: 6204648), complete 
cds 
(CGCGCTIGGCCTIGCCCGCGCCCGC TCGCCTCG TC 

| TCGCCCGGCCTCCCCGCG TCGCCTCG TCGCCTGTT ¥ | 
CCGCGCCAGGCATGGCCCCCAGCACTGTGGCCGTG 二 


FROM: | TO: 


|1 Standard — 二 SS men 1M 





Comments and suggestions to: info@ncbi_nim_nih.gov 
图 1-19 ORF Finder 的 在 线 操 作 界 面 
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e ORF Finder (Open Reading Frame 
Finder) 











STU 





gi|56789292|gb|BC087840.1| Homo sapiens hairy and enhancer of split 5 
IMAGE:6204648), complete cds 


! GenBank v. [100 v enge e PU i 
= +1 8 259.. 777 519 
ec a tS AS 05:402 
E  —— C2 9 1..5890 380 
-0 8 1. 333 333 
RENE NENNEN +3 W383..1520 139 
SS — — — Iq "uM rues 198 
2 +1 8 82. 216 135 
+1 @1363..1476 114 
-3 H1370..1474 105 





图 1-20 ORF Finder 的 六 框 翻译 结果 


二 内 含 子 /外 显 子 剪 切 位 点 的 识别 》》) 


真 核 生 物 的 基因 一 般 为 断裂 基因 ( interrupted gene ), 由 内 含 子 和 外 显 子 组 成 ,编码 序 
列 通 党 被 内 含 子 隐 开 。 虽 然 内 含 子 的 长 度 没有 一 定 的 规律 ,但 是 内 含 子 和 外 显 子 的 边界 
和 周围 序列 是 由 前 体 mRNA 内 的 具有 保守 性 的 一 些 特殊 核 车 酸 序列 表明 的 ,通常 内 含 子 
5” 端 前 切 位 点 以 GU 开始 , 称 为 供 体位 点 ( donor ),3” 端 剪 切 位 点 以 AG 结 束 , 称 为 受 体位 
点 ( acceptor ), 还 包括 一 个 位 于 内 含 子 内 ,靠近 3” 端 的 分 支 位 点 ( 常 为 A ), 后 面 为 多 肾 喀 啶 
区 。 在 分 析 基 因 组 数据 时 ,经 常 需要 预测 基因 的 RNA 选 择 性 剪 切 方式 , 即 内 含 子 和 外 显 子 
的 位 置 和 数量 。 预 测 是 基于 RNA 剪 接 的 保守 性 序列 “GU-AG ” 规则。 根据 这 一 特点 并 结合 
ORF, Blast 等 数据 就 可 以 对 未 知 基 因 的 成 熟 mRNA 序 列 进 行 预测 。 表 1-16 列 出 了 一 些 常 见 
的 内 含 子 /外 显 子 剪 切 位 点 识别 工具 。 一 般 来 说 基因 组 核 苷 酸 序列 的 包含 剪 切 位 点 和 内 含 
子 可 用 NetGene2 和 Splice View 等 工具 直接 预测 ; 而 对 于 mRNA/cDNA 序 列 的 分 析 , 则 需要 借助 
Spidey , SIM4, BLAT 和 BLAST 等 序列 比 对 工具 从 相应 的 基因 组 序列 推断 基因 结构 。 


表 1-16 常见 的 内 含 子 /外 显 子 剪 切 位 点 识别 工具 
Rio —— ae ee — 


http: //www.cbs.dtu.dk/services/NetGene2/ CBS 人 类 线虫 、 拟 南 草 
GeneSplicer http: //cbcb.umd.edu/software/GeneSplicer/ CBCB ”恶性 症 原 虫 ,人 类 拟 南 草 、 果 蝇 水稻 
Spidey http: //www.ncbi.nlm.nih.gov/spidey/ NCBI THE . 果 蝇 线虫 .植物 


GeneSeger http: //deepe2.psi.iastate.edu/cgi—bin/gs.cgi ISU 通用 





工具 名 
NetGene2 




















三 .序列 模 体 的 查找 和 可 视 化 工具 >>> 


模 体 ( Motif ) 是 指 序 列 中 局 部 的 保守 区 域 ,或 者 是 一 组 序列 中 共有 的 一 小 段 序列 模式 。 
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更 多 的 时 候 是 指 有 可 能 具有 分 子 功能 、 结 构 性 质 或 家 族 成 员 相 关 的 任何 序列 模式 。MEME 
软件 包 ( http: //meme.sdsc.edu/meme/intro.html ) 是 一 个 对 DNA 序 列 或 者 和 蛋白质 序 列 中 模 体 进 
行 识别 和 分 析 的 一 个 综合 性 的 工具 。 表 1-17 列 出 了 MEME 软 件 包 中 提供 的 满足 各 种 不 同 需 
要 的 工具 。 | 


X1-17 MEME 软 件 包 中 各 种 工具 





工具 名 网 址 | | - o. MM 
MEME http: //meme.nbcr.net/meme/cgi-bin/meme.cgi 模 体 识别 
GLAM2 http: //meme.nbcr.net/meme/cgi-bin/glam2.cgi 模 体 识别 
MEME-ChIP http: //meme.nbcr.net/meme/cgi-bin/meme-chip.cgi 模 体 识别 
FIMO http: //meme.nbcr.net/meme/cgi-bin/fimo.cgi 模 体 搜索 
GLAM2SCAN http: //meme.nbcr.net/meme/cgi-bin/glam2scan.cgi 模 体 搜 索 
MAST http: //meme.nbcr.net/meme/cgi-bin/mast.cgi 模 体 搜索 
SPAMO http: //meme.nber.net/meme/cgi—bin/spamo.cgi 模 体 间距 分 析 
MCAST http: //meme.nber.net/meme/cgi-bin/mcast.cgi FRA TAL FR 
TOMTOM http: //meme.nber.net/meme/cgi—bin/tomtom.cgi 模 体 比 较 
GOMO http: //meme.nber.net/meme/cgi—bin/gomo.cgi 模 体 功能 分 析 


四 、 密 码 子 使 用 模式 的 分 析 >>> 


由 于 密码 子 简 并 性 的 存在 ,每 个 氨基 酸 至 少 对 应 一 种 密码 子 , 最 多 有 6 种 对 应 的 密码 子 。 
编码 同一 种 氨基 酸 的 密码 子 称 为 同 义 密 码 子 。 不 同 物种 、 不 同 基 因 在 密码 子 使 用 上 都 存在 
着 很 大 的 差异 。 各 种 生物 体 似乎 更 偏爱 使 用 某 些 同 义 三 联 密 码 子 。 例 如 , 某 一 物种 或 基因 
通常 倾 问 于 使 用 一 种 或 者 几 种 特定 的 同 义 密 码 子 , 这 些 密 码 子 被 称 为 最 优 密码 子 , 此 现象 被 
A T EEP, HF [d Ff PERS P7 ESEA REKE Ba ba EA 
的 碱 基 组 成 、GC 含 量 .基因 长 度 , tRNA 的 丰 度 等 很 多 因素 相关 。 密 码 子 分 析 和 常用 软件 和 常 
Pantie sh 


X1-18 密码 子 使 用 偏好 性 分 析 常 用 软件 


软件 网 址 | ”操作 系统 
CodonW http: //sourceforge.net/projects/codonw/ Dos, unix, windows 
SYCO http: //emboss.sourceforge.net/apps/cvs/emboss/apps/syco.html Unix, linux 
CHIPS http: //www.cbib.u-bordeaux2.fr/pise/chips.html Unix, linux 
CUSP http: //emboss.sourceforge.net/apps/cvs/emboss/apps/cusp.html Unix, linux 
CodonPreference http: //odin.mdacc.tmc.edu/gcg/unix/codonpreference.html Unix, linux 
CodonFrequency http: //bioinfo.ekmd.huji.ac.il/gcgl Imanual/codonfrequency.html Unix, linux 
Correspond http: //bioinfo.ekmd.huji.ac.il/gcgl Imanual/correspond.html Unix, linux 


Countcodon http: //www.kazusa.or.jp/codon/countcodon.html Web 
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表 1-19 密码 子 使 用 偏好 性 分 析 常 用 网 站 








aii 


ftp: //ftp.kazusa.or.jp/pub/codon/current/ CUTG, 密码 子 使 用 频 度 表 。 由 GenBank 中 的 DNA 序列 
ftp: //ftp.ebi.ac.uk/pub/databases/cutg/ 统计 出 来 的 密码 子 使 用 频 度 表 ( Codon Usage Tabulate from 


ftp: //ftp.nig.ac.jp/pub/db/codon/current/ GenBank ), 按 物种 和 模式 生物 给 出 。 把 蛋白 质 氨 基 酸 序列 倒 
翻译 为 核 苷 酸 序 列 时 ,应 参考 此 表 


http: //www.kazusa.or.jp/codon/ CUTG ( Codon Usage Tabulated from GenBank ) 的 网 络 扩展 版 ， 
可 以 查询 不 同 物种 的 密码 子 使 用 表 

http: //gcua.schoedl.de/ 以 图 形 的 方式 表现 密码 子 偏好 性 

http: //bioinformatics.org/codon/cgi-bin/ ”将 Codon Usage Database 中 的 所 关心 物种 的 密码 子 表 ,经 处 理 

codon.cgi 转化 为 可 读 性 更 强 的 图 表 形式 


http: //www.faculty.ucr.edu/^mmaduro/ CX FÆ E.coli 中 异 源 重 日 的 表达 效率 给 出 了 很 好 的 建议 


codonusage/usage.htm 


注 : 来 源 于 吴 宪 明 , 吴 松 峰 , 任 大 明 , 等 .密码 子 偏 性 的 分 析 方法 及 相关 研究 进展 .遗传 .2007 ; 29( 4 ): 420-426, 


五 .限制 性 核酸 内 切 酶 位 点 分 析 >>. 


限制 性 核酸 内 切 酶 (以 下 简称 限制 性 酶 ) 是 一 类 识别 双 链 DNA 中 特定 核 苷 酸 序 列 的 DNA 
水 解 酶 ,以 内 切 方式 水 解 DNA ,产生 $” -P 和 3 ” -OH 末端 。 限 制 性 酶 的 识别 序列 ,大 部 分 具有 
双 轴 对 称 性 结构 或 称 回 文 序列 ,具有 一 定 的 保守 性 ,利用 这 一 特性 可 以 识别 基因 序列 中 的 限 
制 性 核酸 内 切 酶 位 点 。 表 1-20 列 出 了 常用 的 限制 性 核酸 内 切 酶 位 点 分 析 工 具 。 

Vector NTI 软 件 输入 文件 格式 广泛 ,除了 molecule documents ( .gb ) 是 该 公司 本 身 文件 格 
式 外 ,还 能 识别 各 种 数据 库 应 用 格式 软件 : EMBL, GenBank, FASTA, Sequence files, FJ LAE 
找 特定 序列 、ORF( 可 以 设置 相关 参数 )、 描 述 载体 、 限 制 酶 位 点 一 些 功 能 序列 和 附注 。 整 个 
界面 由 文本 、 图 形 和 序列 三 部 分 构成 ,而 且 点 击 任意 的 序列 、RE、 基 因 、 图 形 和 序列 均 会 自动 
标记 到 相应 位 置 ,非常 直观 方便 。 载 体 可 以 圆 形 表 示 也 可 以 线形 表示 。 还 可 进行 核酸 到 和 蛋 


日 的 翻译 等 功能 。 
表 1-20 常用 的 限制 性 核酸 内 切 酶 位 点 分 析 工 具 
MEG IN. dod E : 备注 
Vector NTI http: //register.informaxinc.com/solutions/vectornti/index.html Windows 
Webcutter http: //bio.lundberg.gu.se/cutter2/ * Web 
Watcut http: //watcut.uwaterloo.ca/watcut/watcut/template.php Web 
NEBcutter http: //tools.neb.com/NEBcutter2/index.php Web 
BioEdit http: //www.mbio.ncsu.edu/BioEdit/bioedit.html Windows 
DNAMAN http: //www.lynnon.com/ Windows 


RestrictionMapper http: //www.restrictionmapper.org/ Web 
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六 .重复 序列 的 查找 >> 


重复 序列 ( repetitive sequence ) 是 指 真 核 生 物 染 色 体 基因 组 中 重复 出 现 的 核 车 酸 序列 。 
这 些 序列 一 般 不 编码 多 肽 ,其 组 织 形式 有 两 种 : 串联 重复 序列 ; 分 散 重 复 序 列 。 前 一 种 成 族 
存在 于 染色 体 的 特定 区 域 ,后 一 种 分 散 于 染色 体 的 各 位 点 上 。 重 复 DNA 序 列 是 多 数 真 核 生 
物 基因 组 的 主要 成 分 ,可 以 分 为 三 个 主要 类 型 : 低 重 复 序 列 \ 中 度 重复 序列 和 高 度 重复 序列 。 
重复 序列 中 往往 GC 含量 低 , AT 含量 高 ,3” 端 和 5 7” 端 有 直接 重复 序列 的 存在 。 有 利于 形成 环 
状 结构 。 对 这 些 重 复 序 列 的 定位 能 为 基因 定位 提供 重要 的 反 向 信息 ,同时 重复 序列 还 常会 
干扰 序列 其 他 特性 分 析 。 表 1-21 列 出 了 常见 的 重复 序列 查找 工具 。 

表 1-21 常见 的 重复 序列 查找 工具 


IR 网 址 PS en RET 
REPFIND http: //zlab.bu.edu/repfind/ Web 


RepeatMasker http: //www.repeatmasker.org/ Web, linux 
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一 、 蛋 白质 的 理化 性 质 分 析 》》 


和 蛋白质 理化 性 质 是 蛋白质 研究 的 基础 ,对 组 成 蛋白 质 的 氨基 酸 进行 理化 性 质 的 统计 分 
析 是 对 未 知 蛋 白质 进行 分 析 的 基础 。 和 蛋白 质 的 理化 性 质 包括 相对 分 子 质 量 、 氨 基 酸 组 成 、 等 
电 点 、 消 光 系 数 .半衰期 .不 稳定 系数 和 总 平均 亲 水 性 等 。 传 统 的 理化 性 质 分 析 方 法 如 相对 
分 子 质 量 的 测定 、 等 电 点 实验 和 沉降 实验 等 十 分 费时 和 耗资 。 基 于 实验 经 验 值 的 计算 机 分 
析 方 法 为 蛋白 质 的 理化 性 质 分 析 提 供 了 一 个 便捷 的 途径 。 表 1-22 列 出 了 一 些 常 用 的 重 日 质 
理化 性 质 分 析 工 具 。 


表 1-22 蛋白质 理 化 性 质 常用 分 析 工 具 


工具 网 址 备注 
ProtParam http: //us.expasy.org/tools/protparam.html Web 
ProtScale http: //ca.expasy.org/tools/protscale.html Web 
Compute pI/MW www.expasy.ch/tools/ Web 
TGREASE ftp: //ftp.virginia.edu/pub/fasta/ Windows 
SAPS www. isrec.isb—sib.ch/software/SAPS_form.html Web 


ExPASy( expert protein analysis system ) 是 由 瑞士 生物 信息 学 中 心 维护 ,并 与 欧洲 生物 信 

息 . 学 中 心 (EBI ) 及 蛋白质 信息 资源 ( protein in formation resource, PIR ) 组 JI Universal Protein 
站 和 Uniprot ) 联盟 。ExPASy 数 据 库 提供 了 一 系列 重 昌 质 理 化 分 析 工 具 , 以 便于 检 
索 未 知 蛋 白质 的 理化 性 质 ,并 基于 这 些 理化 性 质 鉴 别 未 知 蛋 白质 的 类 别 ,为 后 续 实 验 提供 帮 
助 。 其 中 ProtParam( physico-chemical parameters of a protein sequence ) 就 是 计算 氨基 酸 理化 参数 
常用 的 在 线 工 具 , 其 网 址 为 http: //expasy.org/tools/protparam.html，ProtParam 提 供 的 理化 性 质 主要 
包括 氨基 酸 残 基数 ( number of amino acids ) 分子 质量 ( molecular welght ) .理论 等 电 点 (theoretical 
pI )、 氨 基 酸 组 成 (amino acid composition ), fi FE, fay ZA FE [a YR iE 53. BL total number of negatively 
charged residues ), 1E Fi, fay A JE RA IR XE C3 total number of positively charged residues 人 原子 组 成 
( atomic composition ), 4) F 3&( formula ), 原子 总 数 (total number of atoms ), 7H 26 A XX extinction 
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coefficients ) 半衰期 (estimated half-life )、 不 稳定 系数 (instability index )、 脂 肪 系数 (aliphatic 
index ), 44 3-3 Wit 7K l'E( grand average of hydropathicity ) 等 物理 和 化 学 参数 。ExPASy 的 ProtScale 
程序 是 计算 蛋白 质 亲 玖 水 性 分 析 的 在 线 工具 ,其 网 址 为 http: //expasy.org/tools/protscale.html , 用 
于 计算 氨基 酸 标 度 ( amino acid scale )。 氮 基 酸 标 度 表示 氨基 酸 在 某 种 实验 状态 下 相对 其 他 妥 
基 酸 在 某 些 性 质 的 差异 ,如 朴 水 性 ` 亲 水 性 等 。ProtScale 程 序 收 集 了 50 多 个 文献 中 提供 的 氨基 
酸 标 度 ,默认 值 为 Hphob.Kyte & Doolittle, 做 叭 水 性 分 析 , 可 以 对 一 些 处 于 重 日 质 分 子 表面 的 搞 
原 决定 簇 及 一 些 膜 蛋 白 中 穿越 膜 的 肽 段 进 行 预测 。 以 人 发 状 分 裂 相 关 增 强 子 -5 的 重 日 质 为 
例 ,其 在 GenBank 中 的 编码 为 Q5TA89。 从 GenBank 中 下 载 此 序列 并 粘贴 到 ProtParam 指 定 的 框 内 
见 图 1-21, 点击 Compute parameters 按 钮 提交 序列 ,蛋白质 序列 的 理化 性 质 分 析 结 果 见 图 1-22。 


PA. | WEEDS, ene: .... ProtParam LE 


ProtParam tool 


ProtParam (Ra OCOD) iS a tool which allows the í i oompdtilio n of various physical and chemical parameters for a given protein stored in i Sus: Prot ot TrEMBL í of for a user 
entered sequence The computed parameters include the molecular weight, theoretical pl, amino acid composition, atomic composition, extinction coefficient. estimated half-life, instability 
index. aliphatic index and grand average of hydropathicity (GRAVY) (Disclaimer) 


Please note that you may only fill out one of the following fields at a time 
Enter a Swiss-Prot/ TrEMBL accession number (AC) (for example P05130) or a sequence identifier (ID) (for example KPC1_DROME): 


Or you can paste your own sequence in the box below | 

»gi| 74745795 | sp |Q51A89. 1 |HESS_HUMAN RecHane 

Pull=Transcription factor HES-5; AltNanme: Pull-Clses B basic 

helix-loop-helix protein 38: Short ; AltName: 

Full=Hairy and enhancer of split 5 

|MAPSTVAVELLSPKEKNKLRKPVVEKMKKDRINSSIEQLKLLLEQEF AKHQPNSKLEK AD TT. 
TOMKLLYHFQRPPA 


ENAVSTLKHSKAFVAAAGPK 
APAAPAKEPKAPG AAPPP AL SAKATAAAAAAHQPACGL URPY 


WESET) Came pwns 
图 1-21 ProtParam 的 在 线 操 作 界 面 

Carbon C 818 

Hydrogen H 1299 

Nitrogen N 231 

Oxygen 0 229 

Sulfur S 6 


Formula: C5:5H;299N231022956 
Total number of atoms: 2583 


Extinction coefficients: 

Extinction coefficients are in units of X! cn !, at 280 nm measured in water. 
Ext. coefficient 22585 

Abs 0.1% (=1 g/1) 1.239, assuming all pairs of Cys residues form cystines 
Ext. coefficient 22460 

Abs 0.1% (=1 2/1) 1.232, assuming all Cys residues are reduced 

Estimated half-life: 

The N-terminal of the sequence considered is M (Met). 

The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro). 


>20 hours (yeast, in vivo). 
^10 hours (Escherichia coli, in vivo). 


Instability index: 


The instability index (II) is computed to be 56.31 
This classifies the protein as unstable. 


Aliphatic index: 79.64 


图 1-22  ProtParam4 Af ^k & MFP 9| E 4 Jf 6 SRD HER 
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二 、 蛋 白质 的 跨 膜 结构 分 析 >> 


生物 膜 所 含 的 蛋白 质 叫 膜 重 白 ,是 生物 膜 功能 的 主要 承担 者 。 根 据 重 日 质 分 离 的 难 易 
及 在 膜 中 分 布 的 位 置 , 膜 重 白 基本 可 分 为 两 大 类 : SEREA MANERE. SEREA 
i S AE H 85209630906 ,分 布 在 腊 的 内 外 表面 ,主要 在 内 表面 ,为 水 溶性 重 日 质 , 它 通 过 离子 
键 、 氧 键 与 膜 脂 分 子 的 极 性 头 部 相 结 合 , 或 通过 与 内 在 红 昌 的 相互 作用 间接 与 膜 结合 ; 内 在 
和 借 日 约 占 膜 重 日 的 70%~80%, 是 双亲 媒 性 分 子 ,可 不 同 程度 的 舱 入 脂 双 层 分 子 中 。 有 的 贯 
穿 整 个 脂 双 层 ,两 端 暴露 于 膜 的 内 外 表面 ,这 种 类 型 的 膜 重 日 又 称 跨 膜 重 日 。 内 在 膜 重 日 露 
出 膜 外 的 部 分 含 较 多 的 极 性 氨基 酸 , 属 亲 水 性 ,与 磷脂 分 子 的 亲 水 头 部 邻近 ; tt AWB UE AY 
部 的 膜 蛋白 由 一 些 非 极 性 的 氨基 酸 组 成 ,与 脂 质 分 子 的 踊 水 尾部 相互 结合 ,因此 与 膜 结合 非 
党 紧密。 含有 跨 膜 区 的 和 蛋白 质 往往 和 细胞 的 功能 状态 密切 相关 。 表 1-23 列 出 了 跨 膜 结构 分 
Pris HB TA. 


1-23 ”蛋白质 跨 膜 结构 分 析 常 用 的 工具 


工具 ya 网 址 备注 
Tmpred http: //www.ch.embnet.org/software/TMPRED_form.html Web 
TMHMM http: //www.cbs.dtu.dk/services/TMHMM/ Web 
PSORT ` http: //psort.hgc.jp/form.html Web 
DAS http: //www.sbe.su.se/~miklos/DAS/ Web 
SPLIT http: //split.pmfst.hr/split/ Web 
PRED-TMR http: //athina.biol.uoa.gr/PRED-TMR/ Web 


TMpredÆEMBnet H A WY ot Hr E A E 25 JR DX B E 2; T. Hc, 其 网 址 为 http: //www. 
ch.embnet.org/software/(TMPRED. form.html 。TMpred 基 于 对 TMbase 数 据 库 的 统计 分 析 来 
预测 蛋白 质 跨 膜 区 和 器 膜 方 向 。TMbase 来 源 于 Swiss-Prot 库 ,并 包含 了 每 个 序列 的 一 些 
附加 信息 ,如 : 跨 膜 结构 区 域 的 数量 、 跨 膜 结构 域 的 位 置 及 其 侧 沟 序列 的 情况 。Tmpred 利 
用 这 些 信息 并 与 奉 干 加 权 和 矩阵 结合 进行 预测 。 用 户 将 一 个 重 晶 质 序列 输入 查询 序列 文本 
框 ,并 可 以 指定 预测 时 采用 的 跨 膜 螺 旋 蚊 水 区 的 最 小 长 度 和 最 大 长 度 。 输 出 结果 包含 四 
个 部 分 : 可 能 的 跨 膜 螺旋 区 、 相 关 性 列表 、 建 议 的 跨 腊 拓扑 模型 以 及 表示 相同 结果 的 图 。 
以 G 和 蛋白 偶 联 受 体 蛋 白质 序列 为 例 ,其 在 GenBank 中 的 编号 为 P51684。 将 “P51684” 输 
入 到 TMpred 的 查询 序列 文本 框 中 ,输入 序列 格式 选择 “SwissProt ID or AC” 见 图 1-23, 按 
“Run TMpred” 按 钮 ,可 得 到 TMpred 对 P51684 序 列 的 分 析 结 果 。 图 1-24 到 图 1-27 显 示 了 用 
TMpred 分 析 P51684 序 列 得 到 的 7 个 可 能 的 跨 膜 螺旋 区 .7 个 路 膜 螺 旋 区 的 相关 性 列表 EN 
的 跨 膜 拓扑 模型 和 图 形 显示 结 来 。 
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TMpred - i Prediction of machen mention tentons 
and Orientation 


The Viadi program makes a oiid of ania spanning regions and their 
onentation. The algorithm is based on the statistical analysis of TMbase, a database 
of naturally occuring transmembrane proteins. The prediction is made using a 
combination of several weight-matrices for scoring. 














'" K. Hofmann & W. Stoffel (1993) 
TMbase - A database of membrane spanning proteins segments 
Biol. Chem. Hoppe-Seyler 374,166 


For further information : see the TM Mbase and T IMpredi ct documentation. 





Usage: Paste your sequence in one of the supported formats into the sequence 
field below 

and press the "Run TMpred" button. 

Make sure that the format button (next to the sequence field) shows the 
correct format 

Choose the minimal and maximal length of the hydrophic part of the 
transmembrane helix 


.. Output format htm! v] minimum | 17 ~| maximum (33 ~] 
— — —— nd 
(optional) -一 一 一 一 一 - 


Jupe. sequen A SwissProt ID or AC |. 


— — ram 
or ID or AC or GI 





———— 


—————M——————M———— —À À ——— 


图 1-23 TMpred 的 在 线 操作 界面 


1.) Possible transmembrane helices 


The sequence positions in brackets denominate the core region. 
Only scores above 500 are considered significant. 


Inside to outside helices : T found 
from to score center 
47 ( 51) 69 ( 69) 2494 61 
83 ( 86) 104 ( 104) 1914 94 
123 € 123) 141 © 139) 1352 131 
166 ( 168) 184 ( 184) 2170 176 
219 ( 219) 236 ( 236) 2453 227 
255 ( 255) 276 ( 273) 2140 265 
300 ( 300) 319 ( 319) 915 309 


Outside to inside helices : T found 

from to Score center 
55 4G .55b)u 74. C TD) 2707 63 
84 ( 86) 104 ( 104) 1470 94 
120.0 123) 141 ( 139) 1451 131 
166 ( 166) 185 ( 185) 1934 176 
212 ( 214) 235 ( 232) 2530 224 
252 ( 258) 274 ( 274) 1386 266 
299 ( 299) 319 ( 319) 1299 309 


图 1-24 用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 
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2.) Table of correspontienses 


Here is shown, which of the inside->outside helices correspond to which of the outside->inside helices. 


Helices shown in brackets are considered insignificant. 
A “+”-symbol indicates a preference of this orientation. 
A “++”-symbol indicates a strong preference of this orientation. 


4T- 69 
83- 104 
123- 141 
166- 184 
219- 236 
255- 276 
300- 319 


inside->out side 


| outside->inside 
(23) 2494 | 55- 74 (20) 2707 ++ 
(22) 1914 + | 84- 104 (21) 1470 
(19) 1352 | 120- 141 (22) 1451 + 
(19) 2170 ++ |  166- 185 (20) 1934 
(18) 2453 | 212- 235 (24) 2530 
(22) 2140 ++ | 252- 274 (23) 1386 . 
(20) 915 |. 299- 319 (21) 1299 ++ 
图 1-25 ”用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 的 相关 性 列表 


3.) Suggested models for transmembrane topology 


These suggestions are purely speculative and should be used with extreme caution since they are based on the assumption that all transmembrane helices have been 
found, 


In most cases, the Correspondence Table shown above or the prediction plot that is also created should be used for the topology assignment of unknown proteins. 


2 possible models considered, only significant Ti-segments used 


---) STRONGLY prefered model: N-terminus outside 
7 strong transmembrane helices, total score : 14211 
# from to length score orientation 


1 55 74 (20) 
2 83 104 (22) 
3 120 141 (22) 
4 166 184 (19) 
5 212 236 (20 
6 265 216 (22) 
1 299 319 (2D 





2707 o-i 
1914 i-o 
1461 o-i 
2110 i-o 
2530 o-i 
2140 i-o 
1299 o-i 


> alternative model 


7 strong transaembrane helices, total score : 12004 
# from to length score orientation 


1 47 69 (23) 2494 i-o 
2 84 104 (21) 1470 oni 
3 123 141 (19) 1352 i-o 
4 166 185 (20) 1934 o-i 
5 219 236 (18) 2453 i-o 
6 262 274 (23) 1386 o-i 
7 300 319 (20) 915 i-o 


用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 的 跨 膜 拓扑 模型 


TMpred output for P51684 








0 50 100 150 200 250 300 350 400 
用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 的 图 形 显示 结果 
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三 、 蛋 白质 信号 肽 的 预测 和 识别 >> 


[ri & RK( signal peptide ) 是 指 新 合成 多 肽 链 中 用 于 指导 借 白 质 跨 膜 转移 的 末端 ( 通 常 为 
N 末 端 ) 氨 基 酸 序列 。 信 号 肽 在 重 白 分 泌 的 过 程 中 起 重要 作用 ,分 泌 性 重 白 质 合 成 后 由 信号 
肽 引导 其 穿 过 合成 所 在 的 细胞 到 其 他 组 织 细胞 中 。 信 号 肽 中 至 少 含有 一 个 币 正 电 奏 的 氨基 
酸 , 中 部 有 一 个 高 度 玖 水 区 以 通过 细胞 膜 。 信 号 肽 假说 认为 ,编码 分 泌 和 集 日 的 mRNA 在 翻 详 
时 首先 合成 的 是 N 末 端 带 有 政 水 氨基 酸 残 基 的 信号 肽 , 它 被 内 质 网 膜 上 的 受 体 识别 并 与 之 
结合 。 信 号 肽 经 膜 中 蛋白质 形成 的 孔道 到 达 内 质 网 内 腔 , 并 随机 被 位 于 腔 表 面 的 信号 肽 酶 
水 解 ,由 于 它 的 引导 ,新 生 的 多 肽 就 能 够 通过 内 质 网 膜 进入 腔 内 ,最 终 被 分 泌 到 胞 外 。 信 号 
肽 的 识别 有 助 于 蛋白 质 功 能 域 的 区 分 及 和 蛋白质 细胞 定位 。 

前 导 肽 (leader peptide ) 是 信号 肽 的 一 种 。 在 线粒体 重 白 质 的 跨 腊 转运 过 程 中 ,通过 线 
粒 体 膜 的 蛋白 质 在 转运 之 前 大 多 数 以 前 体形 式 存 在 , 它 由 成 熟 重 日 质 和 N 闪 延伸 出 的 一 段 
前 导 肽 共同 组 成 。 记 今 已 有 40 多 种 线粒体 和 蛋白质 前 导 肽 的 一 级 结构 被 阐明 ,它们 约 含 20~80 
个 氨基 酸 残 基 , 当 前 体 和 蛋白 跨 腊 时 ,前 导 肽 被 一 种 或 两 种 多 肽 酶 水 解 转变 为 成 熟 重 日 质 , 同 
时 失去 继续 跨 膜 的 能 力 。 前 导 肽 一 般 具 有 以 下 特性 : 山 带 正 电荷 的 碱 性 氨基 酸 ( 特 别 是 精 氮 
酸 ) 含 量 较 为 丰富 ,它们 分 散 于 不 带电 荷 的 氨基 酸 序列 之 间 ; @ 缺 失 带 负 电荷 的 酸性 氨基 酸 ; 
羟基 氨基 酸 ( 特 别 是 丝氨酸 ) 含 量 较 高 ; DATE LII 2S C BER KLARKI ) a -螺旋 
结构 的 能 力 。 

可 以 利用 因特网 在 线 工具 和 信和 号 序列 捕获 系统 来 判定 基因 序列 中 是 否 含有 信和 号 肽 序 
列 。SignalP 是 丹麦 科技 大 学 生物 序列 分 析 中 心 开 发 的 信号 肽 及 其 剪 切 位 点 检测 在 线 工具 ， 
其 网 址 为 http: //genome.cbs.dtu.dk/services/SignalP/。 该 软件 基于 神经 网 络 方法 ,用 已 知 信号 
序列 的 革 兰 阴性 原核 生物 . 半 兰 阳性 原核 生物 及 真 核 生物 的 序列 作为 训练 集 。SignalP 预 测 
的 是 分 泌 型 信号 肽 ,而 不 是 参与 细胞 内 信号 传递 的 重 日 质 。 


四 、 蛋 白质 的 卷曲 螺旋 预测 >> 


卷曲 螺旋 是 通过 其 路 水 性 界面 相互 纯 绕 在 一 起 形成 的 一 个 十 分 稳定 的 结构 ,是 控制 香 
白质 寡 聚 化 的 元 件 , 它 存 在 与 很 多 和 蛋 白 质 中 ,例如 转录 因子 、 病 毒 融 合 重 日 多 肽 等 ,在 中 间 纤 
维 中 也 有 很 长 的 这 样 的 元 件 。 

卷曲 螺旋 ( coiled-coil ) 是 存在 于 多 种 天 然 借 日 质 中 的 一 类 由 两 股 或 者 两 股 以 上 a 螺旋 
相互 缠绕 而 形成 的 平行 或 反 平行 左手 超 螺 旋 结 构 的 总 称 。 卷 曲 螺旋 区 域 一 般 以 7 个 氨基 酸 
残 基 为 单位 组 成 ,以 a、b、c、d、e、f、g 位 置 表示 ,其 中 a 和 d 位 置 为 玖 水 性 氨基 酸 ,其 他 位 置 的 
BASEN IRAN ARK VE. dE ERE EP dil ESE or, ETE IRA EAP ER 
5 EREA A AMRA RE J^: IRE, Bl ON FE e E n B PESE DNI P ,病毒 
融合 蛋白 多 肽 等 等 ,在 中 间 纤 维 中 也 有 很 长 的 这 样 的 元 件 。 表 1-24 列 出 了 常用 的 重 日 质 卷 
曲 螺旋 预测 工具 。 

COILS 是 由 Swiss EMBNet 维 护 的 预测 卷曲 螺旋 的 在 线 工 具 , 其 网 址 为 http: //www. 
ch.embnet.org/software/COILS_form.html。 该 软件 基于 Lupas 算 法 ,在 一 个 包含 已 知 卷曲 螺旋 重 
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日 结构 的 数据 库 中 对 查询 序列 进行 搜索 ,同时 也 将 查询 序列 与 包含 球状 重 晶 序列 的 PDB 次 
级 库 进 行 比 较 , 并 根据 两 个 库 搜索 得 分 决定 查询 序列 形成 卷曲 螺旋 的 概率 。COILS 也 可 以 下 
载 到 本 地 进行 运算 。 


表 1-24 常用 的 蛋白 质 卷 曲 螺旋 预测 工具 


Coiled—coil http: //www.york.ac.uk/biology/units/coils/coilcoil.html Mac 
COILS http: //www.ch.embnet.org/software/COILS_form.html Web 
Epitopelnfo http: //epitope—informatics.com/Links.htm Web 


五 、 糖 基 化 位 点 的 预测 与 识别 》》 


糖 基 化 是 真 核 细 胞 中 最 常见 的 翻译 后 和 蛋白质 修饰 过 程 之 一 ,在 生物 学 过 程 中 扮演 着 重 
要 的 角色 , 它 能 参与 免疫 防御 、 病 毒 复 制 、 细 胞 生长 等 过 程 。 蛋白质 的 糖 基 化 有 N- 糖 基 化 、O0- 
糖 基 化 、C- 甘 露 糖 糖 基 化 以 及 糖 基 脂 酰 肌 醇 ( GPI ) 销 区 四 种 类 型 。 其 中 0- 糖 基 化 参与 很 多 
细胞 生化 过 程 , 诸 如 细胞 黏附 、 细 胞 免疫 、 精 卵 结 合 、 血 液 凝 固 以 及 微生物 对 细胞 的 儿 附 等 。 
0- 糖 基 化 可 调节 细胞 表面 受 体 的 表达 和 功能 ,从 而 影响 生物 细胞 的 生长 和 调 亡 、 豚 胎 发 生 
等 重要 生命 过 程 。 但 是 0- 糖 基 化 位 点 的 确切 序列 片段 还 不 清楚 ,还 未 发 现 固定 的 模式 ,但 
是 许多 基于 实验 和 计算 的 方法 已 经 被 应 用 在 寻找 糖 基 化 和 序列 间 的 一 致 性 。 
NetOClyc 是 由 丹麦 技术 大 学 的 生物 序列 分 析 中 心 维护 的 预测 糖 基 化 位 点 的 在 线 工具 ， 
其 网 址 为 http: //www.cbs.dtu.dk/services/NetOGlyc/, N etOGlyc 了 预测 哺乳 动物 入 日 质 中 的 糖 基 
化 位 点 ,通过 神经 网 络 系统 对 序列 进行 分 析 , 最 后 得 到 一 个 国 值 分 布 和 相应 位 点 的 得 分 ,可 
以 批量 提交 ,也 可 以 提交 fasta 格 式 的 序列 或 者 序列 文件 。 


六 、 磷 酸化 位 点 的 预测 与 识别 》》 


克 酸 化 是 重 晶 质 重要 的 翻译 后 修饰 之 一 ,也 是 细胞 调控 的 重要 形式 之 一 ,磷酸 化 会 影响 
到 很 多 的 细胞 信号 通路 ,包括 代谢 、 生 长 .分 化 和 膜 运 输 等 。 由 于 克 酸化 的 重要 性 ,磷酸 化 位 
点 的 理论 识别 成 为 计算 生物 学 的 重要 研究 内 容 。 磷 酸化 位 点 附近 存在 保守 残 基 片 段 , 而 这 
种 保守 性 又 与 激酶 类 型 相关 。 表 1-25 列 出 了 常用 磷酸 化 位 点 的 预测 与 识别 工具 。 


表 1-25 常用 的 磷酸 化 位 点 的 预测 与 识别 工具 





AA. (ovum. <3 DENN I: 
KinasePhos http: //kinasephos.mbc.nctu.edu.tw/ Web 
GPS http: //gps.biocuckoo.org/ Windows, Linux, Unix, Mac OS 
pkaPS http: //mendel.imp.ac.at/sat/pkaPS/ Web 


NetPhos http: //www.cbs.dtu.dk/services/NetPhos/ Web 
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Section 6 Examples 


真 核 生物 的 基因 一 般 为 断裂 基因 ( interrupted gene ), 由 内 含 子 和 外 显 子 组 成 ,编码 序列 
通常 被 内 含 子 阳 开 。 虽 然 基 因 的 结构 式 断 裂 的 ,但 是 mRNA 的 结构 去 不 是 断裂 的 。 基 因 的 
初始 转录 物 与 基因 的 绪 构 相同 ,经 过 mRNA 剪接 从 mRNA 前 体 中 去 除 内 含 子 得 到 信使 mRNA。 
而 对 同一 个 mRNA 前 体 , 通 过 不 同 的 剪接 方式 产生 了 不 同 的 mnRNA 选 择 性 剪接 变 体 ,使 一 个 
基因 在 不 同时 间 不同 环境 中 能 制造 出 不 同 的 重 日 质 , RNA 的 选择 性 剪 切 时 高 等 真 核 生物 基 
因 中 普遍 存在 的 一 种 生命 现象 , 它 在 真 核 基因 表达 调控 中 起 着 十 分 重要 的 作用 。 本 节 我 们 
用 实例 介绍 如 何 让 利用 NCBI 的 Spidey 工 具 分 析 mRNA 或 者 cDNA 的 外 显 子 组 成 以 及 基因 的 选 
FEPEBY WAIT o 





一 、 利 用 Spidey 工 具 识 别 mRNA/cDNA 的 外 显 子 组 成 》》; 


图 1-28 是 Spidey 工 具 的 序列 在 线 提交 页 面 ,在 主 界面 中 有 两 个 窗口 ,上方 窗 口 用 于 输入 
基因 组 序列 (直接 粘贴 序列 或 者 用 GenBank 号 ) 下 方 窗口 用 于 输入 mRNA/cDNA 序 列 ( 直接 
粘贴 序列 或 者 用 CenBank 号 ), 可 同时 输入 多 条 mRNA/cDNA 序 列 与 同一 条 基因 组 序列 进行 
分 析 。“divergent sequences” 参 数 用 于 判断 分 析 的 序列 间 的 差异 ;“Use large intron sizes” 参 





数 表 示 是 否 接受 默认 的 内 含 子 长 度 限 制 , 默 认 的 内 部 内 含 子 为 33kb ,未 痛 内 含 子 为 100kb; 


“Genomic sequence ”人 参数 用 于 判断 序列 的 物种 ; "Out options” 人 参数 用 于 选择 结果 输出 的 格式 。 

人 类 的 FXYD5 是 一 个 重要 的 铁 离子 转运 调节 体 , 为 了 了 解 FXYD5 的 mRNA 的 外 显 子 组 
成 ,我 们 在 NCBI 的 GenBank 数 据 库 中 检索 到 FXYD5 的 一 条 mRNA 的 记录 号 NM_014164, 以 
及 该 基因 所 对 应 的 基因 组 片段 记录 号 AC002390, 我 们 将 AC002390 填 在 上 方 的 输入 界面 ， 
NM_014164 填 入 下 方 的 输入 界面 ,“Genomic sequence is” 参 数 选 择 “Vertebrate”, 其 余 参 数 选 
择 上 默认 ,然后 点 击 “Align” 开 始 分 析 , 最 后 的 结果 以 图 形 化 的 方式 返回 (图 1-29 )。 结 果 显 示 
FXYD5 基 因 记 录 号 为 NM_014164 的 mRNA 由 9 个 外 显 子 组 成 ,结果 详细 给 出 了 mRNA 的 每 个 
外 显 子 在 基因 组 中 对 应 位 置 和 长 度 。 同 时 Spidey 工 具 在 图 形 化 结果 的 下 方 还 给 出 了 具体 的 
序列 比 对 的 信息 (图 1-30 )。 
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mRNA sequence(s) (One or more FASTA or 
Gl/Accession): 


Upload file: [选择 文件 ] 未 选择 文件 


A 


Bl1-28 Spidey 工 具 的 序列 在 线 提交 页 面 


Genomic mRNA 
coordinates coordinates 


Donor Acc. 
site site 


length identity mismatches gaps 





Eron 1399-1459 89-149 61 100. 0% 0 0 d a 





2 
im 4192-4248 231-287 57 100. 0% 0 0 d á 





ps 10004-10093 381-470 90 100. 0% 0 0 d a 





un 12099-12173 501-575 T5 100. 0% 0 0 d a 






bs 


21 


图 1-29 Spidey 工 具 的 图 形 化 结果 显示 
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Exon 1: 570-657 (genomic); 1-88 (mRNA) 


570 GCTCGCGCTCCCCTGGCCACACCCTC 
DERE 
1 CTGGCCACACCCTCCGCC 
610 GCG TCCCTCTCTCCACG AGGC TGCCGGCTTAGGACCCCCAGCTCCG ACG T 
LTT 
41 GCG TCCCTCTCTCCACG AGGCTGCCGGCTTAGGACCCCCAGCTC 
AAGTCCCT 


Exon 2: 1399-1459 (genomic); 89-149 (mRNA) 


1399 ATGTCGCCCTCTGG TCGCC TG TG TCT TCTCACCATCG TTG. 
时 时 时 
89 ATGTCGCCCTCTGG TCGCCTGIGTCTICTCACCATCGTTG 
类 
1439 GCCTGATTCTCCCCACCAG AGGTAAGACCCA 
| 
129 GCCTGA 


€-L Dib PW R 


图 1-30 Spidey 工 具 的 序列 比 对 结果 


二 利用 Spidey 工 具 进 行 可 变性 剪 切 的 分 析 >>> 


NADPH 氧 化 酶 (nicotinamide vadenine dinucleotide phosphate oxidase, NOX ) 家 族 是 许 
多 非 吞 叭 细胞 中 活性 氧 的 主要 来 源 ,通过 该 途径 产生 的 活性 氧 作 为 信号 分 子 参与 了 细胞 分 
化 .增殖 、 凋 亡 等 的 调节 。NOX1 是 NOX 家 族 的 一 个 成 员 , 在 GenBank 数 据 库 中 检索 发 现 了 
AF127763.2 、AF166326.1、AF166327.1 和 AF166328.1 四 条 非常 相似 的 mRNA 序列 ,这 些 序列 可 
能 是 NOX1 基 因 的 可 变性 剪 切 产生 的 产物 ,将 NOX1 基 因 所 在 的 基因 组 片段 编号 NG_012567.1 
黏 贴 在 界面 的 上 方 输入 框 , 四 个 mRNA 的 记录 号 粘贴 在 界面 的 下 方 输入 框 , 参 数 选择 默认 ， 
点 击 “Align” ,最终 显示 的 可 变性 前 切 的 图 形 界面 结果 (图 1-31 )。 通 过 分 析 这 个 图 形 化 结果 
和 后 续 的 序列 比 对 的 详细 信息 ,我 们 将 能 很 好 地 了 解 NOX1 的 可 变性 剪 切 的 方式 。 


mRNA gi |6138993|gb|AF127763. 2| Homo sapiens mitogenic oxidase mRNA, complete cds 
TRNA gil6138993|gb|AF127763.2| Homo sapiens mitogenic oxidase mRNA, complete cds 
TRNA 3: gil6672077|gblAF166327.1| Homo sapiens NADPH oxidase homolog 1 long form 
ae mRNA, alternatively spliced, complete cds 

rRNA 4: gileeT2079|gb|AF166328.1| Homo sapiens NADPH oxidase homolog 1 long form 
Le (NOH1) mRNA, alternatively spliced, complete cds 











5001 36009 
Genomic 

mRNA CO 
mRNA 2 ° Le | S 
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mRNA 4 : D -————' 9€ | ee 











图 1-31 Spidey 工 具 进 行 可 变性 剪 切 分 析 的 图 形 化 结果 
(Al 3) 
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基因 心 片 数据 分 析 


MICROARRAY DATA ANALYSIS 


基因 芯片 ( gene chip ) 通 第 被 称 为 微 阵列 ( microarray ), 它 是 20 世 纪 90 年 代 发 展 起 
来 的 一 种 高 通 量 检测 基因 表达 水 平 的 生物 技术 。 基 因 芯 片 数 据 能 够 反映 生物 个 体 的 


所 有 基因 在 特定 组 织 、 器 官 、 生 理 状态 (如 ,疾病 ) 或 发 育 阶段 中 的 表达 情况 。 基 因 芯 片 
技术 已 经 被 广泛 应 用 到 基因 的 功能 研究 基因 的 转录 调控 分 析 、 疾 病 标志 物 ( marker ) 


的 识别 \ 疾 病 亚 型 的 确定 疾病 的 精确 分 类 以 及 药物 靶 点 的 篇 选 等 领域 ,为 复杂 疾病 的 
分 子 机 制 研究 提供 了 转录 水 平 的 全 局 性 视角 , 极 大 加 快 了 药物 研发 的 进程 以 及 个 性 化 
医疗 的 开展 。 本 章 将 首先 简要 介绍 各 种 常见 的 基因 芯片 平台 ; 然后 结合 具体 软件 的 使 
用 ,讲解 基因 芯片 数据 的 预 处 理 方 法 和 主要 分 析 技 术 ( 如 : 特征 基因 的 识别 、 聚 类 和 分 
类 分 析 等 ) 最 后 通过 两 个 具体 实例 说 明基 因 芯 片 数据 在 人 类 复杂 疾病 研究 中 的 应 用 。 
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Section 1 Introduction to Microarray Platforms 


FE TALS Fr AE H CHE CDN A SEP A RIRE n HEP TJE SITAR ET AE, Hz As JE AS 
EWF. SEDET SE EU ROME GS IS RAH ( Ko ry DA at it 
因 的 检测 )、 目 动 化 (一 次 动作 可 以 完成 实验 室 从 探 针 的 固定 、 探 针 与 样本 杂交 等 过 程 多 个 步 
又 的 工作 )、 平 行 化 (检测 基因 在 同一 时 空 状态 下 的 表达 快速 灵敏 (检测 时 间 一 般 可 在 30 分 
钟 内 完成 ,如 果 采 用 控制 电场 的 方式 ,杂交 时 间 可 控制 在 1 分 钟 堪 右 入 样品 用 量 少 成 本 相对 
低廉 等 优点 。 基 因 世 片 的 类 型 众多 ,大 致 有 以 下 几 种 分 类 方式 : 由 以 基质 材料 分 ,有 尼龙 膜 、 
玻璃 片 . 硅 胶 唱 片 微型 磁 珠 等 ; QW Ar SAE 7 foi PPAR oP AR EE 
片 甚至 完整 的 活 细胞 ; @ 按 工作 原理 分 类 ,有 杂交 型 合成 型 .连接 型 . 亲 和 识 别 型 等 。 以 下 
将 介绍 几 种 具有 代表 性 的 基因 芯片 的 制备 过 程 及 特点 。 


一 CDNA 芯片 >>> 


cDNA; H (C cDNA microarray ) 是 在 1995 年 由 美国 stanford 大 学 首先 研制 成 功 的 。cDNA 
心 片 的 制作 流程 如 图 2-1 所 示 : 首先 通过 克隆 的 方法 获得 目标 cDNA 序列 ,将 其 作为 探 针 
高 密度 固定 在 基质 上 制备 cDNA 芯片 ( 探 针 的 序列 是 已 知 的 方 然后 从 待 检测 的 实验 细胞 
( experimental cell ) 和 对 照 细 胞 (control cell ) 中 分 别提 取 总 mRNA, 由 于 RNA 本 号 不 稳定 ,而 
cDNA 保 存 时 间 较 长 ,因此 ,将 mRNA 反 转录 ( reverse transcription ) 成 cDNA ,并 分 别 用 红色 次 
光 分 子 ( Cy5 ) 和 绿色 荧光 分 子 ( Cy3 ) 进行 标记 ; 接 下 来 将 两 组 egDNA 样 本 等 比例 混合 ,在 一 
定 的 实验 条 件 下 与 蕊 片上 的 探 针 进行 杂交 ,杂交 完成 后 洗 脱 没有 与 探 针 互 补 结合 的 cDNA 厂 
Br; 最 后 ,将 心 片 置 于 黑箱 中 ,对 心 片 进 行 激光 共聚 焦 扫描 ,获得 每 个 探 针 杂交 后 的 灾 光 强 
度 。 如 果 基 因 在 两 组 细胞 中 的 表达 水 平 相同 ,其 扫描 后 的 图 像 为 黄色 ,如 宁 基 因 在 两 组 细胞 
中 的 表达 水 平 不 同 , 则 扫描 后 的 图 像 呈现 红色 或 绿色 , 菊 光 强度 值 定 量 反 映 了 基因 的 相对 表 
达 水 平 。 此 外 ,由 于 cDNA 芯片 的 探 针 来 源 于 样本 的 cDNA 克隆 ,因此 探 针 的 长 短 不 一 , 震 要 
的 杂交 条 件 也 不 同 , 但 在 进行 芯片 杂交 时 只 能 设 定 一 个 杂交 条 件 ,其 结果 可 能 会 出 现 由 于 实 
验 本 身 导 致 的 非特 异性 杂交 和 杂交 效能 低 等 问题 ,因此 , cDNA 心 片 的 可 徘 性 和 重复 性 不 是 
很 理想 。 
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图 2-1 cDNA 蕊 片 制作 流程 


KF: http: //www.scq.ubc.ca/spot- your-genes-an-overview-of-the-microarra y/ 


— BAEBWESA) 


TEE TE RAS Ar ( oligonucleotide microarray ) tad E aede 片 类 似 , 主 要 通过 碱 基 
互补 配对 的 原则 进行 杂交 ,来 检测 探 针 所 对 应 RAKE. FAA R A IR EHA 
ys 于 cDNA 克隆 ,而 是 预先 设计 并 合成 的 、 pias ^F AED FE TEXERCH BR Hr Ex ,长 

BE 2 ASObp, YA Jake AL EB REE B 3E I. E lE OS Fr, Auf sel T eDNATRTEFE IU AK SE 
致 的 非 is FE oc LARS ALR ET ASC AI VE AI I8] TS BY BUS A RAS A fS S SAM, FA SEE 
RIRE EM — OTE eM, FPA BES A il fr iae 的 消耗 量 又 很 少 , 而 在 一 系列 实验 中 心 

片 的 制备 存在 时 间 差 ,因此 早期 合成 的 寡 核 苷 酸 片 段 可 能 存在 降解 的 情况 ,从 而 导致 最 终 检 
测 质量 的 下 降 








原 位 合成 必 片 》 


原 位 合成 必 ( light—controlled in situ synthesis of DNA microarrays | KHER SIFRA 
HAR TER Ar ae XE Hp Er LEE TAE RIRE, TEAS [a] PE BY APES Fr SS PERS 
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原 位 合成 芯片 的 探 针 制备 过 程 如 图 2-2 所 示 : 先 将 基 片 支持 物 ( wafer ) 羟基 化 ,然后 用 对 光敏 
感 的 保护 基 团 将 羟基 基 团 保护 起 来 。 每 次 选取 特制 的 光 掩 膜 ( mask ) i CE SE Hr ESTE 
需要 合成 的 部 位 。 当 光 通 过 光 掩 膜 照射 到 基 片 上 时 ,需要 聚合 的 部 位 透 光 , 受 光 照射 部 位 的 
凑 基 去 保护 而 活化 。 然 后 加 入 3 mE 羟基 末端 连接 光敏 保护 基 团 ) 的 单一 核 甘酸 单 
体 抵 物 后 ,发 生 偶 联 反应 。 在 一 轮 反 应 之 后 更 换 为 一 张 光 掩 膜 来 控制 活化 区 域 ,并 换 男 一 种 
核 苷 酸 单 体 实现 在 特定 位 点 合成 预定 的 序列 寡 聚 体 。 每 次 通过 控制 光 掩 膜 ( 决 定 哪些 区 域 
应 被 活化 ) 以 及 所 用 核 苷 酸 单 体 的 种 类 和 反应 次 序 就 可 以 实现 在 特定 位 点 合成 大 量 预 定 序 
列 寡 聚 体 的 目的 。 使 用 多 种 掩盖 物 能 以 更 少 的 合成 步骤 生产 出 高 密度 的 阵列 ,在 合成 循环 
中 探 针 数目 呈 指 数 增长 。 光 掩 膜 的 设计 和 严格 的 工艺 流程 使 制造 的 必 片 具有 高 密度 fed E 
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图 2-2 原 位 合成 芯片 的 探 针 制备 过 程 
来 源 于 : http: //bioservices.capitalbio.com/fwpt/Affymetrixpt/3943.shtml 


原 位 合成 必 片 为 单 通道 芯片 , 即 只 使 用 一 种 荧光 分 子 对 样本 进行 标记 ,通过 检测 奖 光 
玛 度 获得 基因 的 表达 水 平 。 由 于 宅 核 苷 酸 拧 针 长 度 较 短 ( 一 般 为 13~25 个 碱 基 ), 对 于 某 个 
行 检测 的 基因 通常 需要 设计 多 个 相互 重合 的 探 针 构成 探 针 集 , 从 而 有 效 减 少 探 针 杂 交 非 
专 一 性 的 影响 。 该 类 芯片 的 主要 优势 在 于 所 有 探 针 都 是 在 一 个 条 件 下 完成 的 ,因此 同一 
批 芯 片 的 探 针 浓度 均一 性 较 好 ; 此 外 ,由 于 该 类 芯片 的 探 针 合成 和 芯片 制备 是 同时 进行 
的 , 探 针 不 需要 预先 合成 ,所 以 避免 了 点 样 必 片 中 探 针 的 降解 情况 ,从 而 保证 了 实验 的 重 
复 性 ; 同时 ,考虑 到 探 针 的 非特 异性 杂交 问题 ,该 类 忌 片 通常 针对 每 段 参考 序列 ( reference 
sequence ) 设计 一 对 蹇 核 车 酸 探 针 ,其 中 一 个 是 完全 匹配 (perfect match, PM ) 的 探 针 , 男 
一 个 是 中 间 有 一 个 碱 基 错 配 ( mismatch, MM ) 的 探 针 ,计算 时 将 每 对 PM-MM 探 针 的 检测 信 
号 综合 起 来 ,这 样 有 助 于 区 分 特异 性 结合 与 非特 异性 结合 的 靶 片 段 ,从 而 提高 探 针 灵敏 度 
和 特异 性 (图 2-3 )。 这 种 PM-MM 设 计 对 于 复杂 序列 背景 样品 中 低 丰 度 表达 产物 的 检测 有 
明显 优势 。 
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af 
-一 一 -一 -一 一 一 一 —— MRNA reference 


o emee 
— — — — 7 —— ~ — pr—À — P — — ——À 
~ 


reference sequence 
. THTGATGGTGGGAATGGGTCAGAAGGACTCCTATGTGGGTGACGAGGCC... 


AATGGGTCAGAAGGACTCCTATGTG | Perfect match probe 
AATGGGTCAGAACGACTCCTATGTG | Mismatch probe 


Probe Pair 
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Probe Set: 


图 2-3 原 位 合成 芯片 的 探 针 设 计 原则 
来 源 于 : http: //bioservices.capitalbio.com/fwpt/Aff ymetrixpt/3943.shtm] 


AREA >> 


光纤 微 珠 芯 片 (beadarray microarray ) 是 利用 无 和 所 无 灾 光 硅 珠 阵列 ( beadarray ) 的 技术 制 
备 的 一 种 芯片 ,是 新 一 代 的 基因 芯片 。 光 纤 微 珠 芯 片 具 备 如 下 特点 : 由 密度 高 ,该 类 芯片 是 
目前 最 高 密度 的 芯片 制备 技术 ,每 平方 厘米 有 约 400 万 个 点 ( 微 珠 ); DEEE, 8E 4 
在 一 轮 反 转录 的 情况 下 仅 需 $0~100ng RNA; 重复 性 高 , 心 片 设计 中 的 “无 序 自 组 法” 方式 
以 及 每 种 类 型 微 珠 的 30 倍 重复 的 特点 保证 了 世 片 的 高 重复 性 ; 由 数据 准确 性 高 ,定量 PCR 
( qPCR ) 是 检验 忆 片 数据 的 黄金 标准 ,实验 表明 全 基因 组 表达 必 片 ( Human-6, Humanref-8 ) 
和 qPCR 相 关系 数 尺 =0.93 ,特定 基因 组 研究 芯片 和 qPCR 相 关系 数 R =0.97 ; G)100% 质 量 控 
制 ,芯片 生产 过 程 中 采用 专利 的 解码 技术 ,质量 控制 能 深入 到 每 张 芯片 上 每 个 微 珠 的 每 个 
特性 ,保证 数据 的 可 靠 性 和 重复 性 ; (OO 性 价 比 高 ,光纤 微 珠 芯片 价格 是 传统 商品 化 芯片 的 
1/2~1/3, 有 效 降 低 了 心 片 成 本 。 

光纤 微 珠 芯片 设计 的 基本 原理 如 图 2-4 所 示 , 其 主要 组 成 元 件 是 光 导 纤维 和 纳米 材料 
(AER ), 探 针 连 接 在 微 珠 上 ,每 个 探 针 由 两 部 分 组 成 : 23bp 的 地 址 序列 (address ) 和 50bp 的 探 
针 序列 。 地 址 序列 对 每 种 微 珠 进行 编码 ,特异 对 应 于 某 个 微 珠 ,而 探 针 序列 则 代表 某 个 基因 
的 特异 片段 。 探 针 在 合成 纯化 后 与 微 珠 通过 化 学 反应 连接 ,每 个 微 珠 可 以 连接 100 万 左右 相 
同 的 探 针 ,为 保证 充足 的 探 针 数目 ,每 个 微 珠 还 设计 了 30 个 重复 。 将 不 同类 型 的 微 珠 进行 混 
合 形成 “ 微 珠 池 ” ,将 奋 干 束 微小 光纤 插入 微 珠 池 ,每 5 万 根 光 纤 组 成 一 束 ,每 根 光纤 的 末端 有 

一 个 用 化 学 方法 蚀刻 的 微 孔 ,每 个 微 孔 内 恰好 仅 可 容纳 一 个 直径 为 3um 的 微 珠 , 微 珠 以 “无 

序 自 组 装 ” 的 方式 随机 进入 光纤 束 上 的 微 孔 组 闻 成 芯片 。 将 从 样本 中 提取 的 mRNA 反 转 录 
成 cDNA ,并 进一步 产生 cRNA( 通 过 挨 入 市 获 光 标记 的 核 苷 酸 进 行 标记 小 市 有 标记 的 cRNA 
与 微 珠 上 的 特异 性 探 针 杂交 。 从 激光 扫描 仪 上 发 出 激光 通过 光纤 传递 给 灾 光 素 ,后 者 发 出 
的 光 又 通过 光纤 传递 给 检测 需 。 最 后 ,采用 解码 流程 对 必 片 上 微 珠 的 类 型 .位置 .数量 .信和 号 
强 弱 进行 解读 ,如 果 某 个 微 珠 的 质量 控制 不 达标 ,该 通道 将 被 关闭 。 解 码 过 程 同 时 完成 了 对 
芯片 信息 的 采集 以 及 100% 的 质量 控制 。 


— 80 第 二 章 基因 心 片 数据 分 析 





CHAPTER 2 MICROARRAY DATA ANALYSIS 





图 2-4 光纤 微 珠 芯片 设计 原理 
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基因 心 片 数 据 的 预 处 理 








Section 2 Preprocessing of Microarray Data 


Fi PEAS FOF GPE ASIF EE JT A i 2. ,在 对 基因 心 片 数据 进 
{TRE 、 分 类 等 分 析 之 前 ,往往 需要 先进 行 预 处 理 ( pre-procession )。 预 处 理 的 过 程 主要 包括 


数据 提取 ,将 高 通 量 的 艾 光 信号 转化 成 基因 表达 数据 ; 数据 过 滤 , 去 除 异 常数 据 和 噪声 数据 ; 


补缺 失 值 ,保证 数据 的 完整 性 ; 对 数 转换 ,以 满足 正 态 分 布 的 分 析 要 求 ; 标准 化 ,纠正 系统 误 
差 , 以 发 现 真正 的 生物 学 变异 。 


一 基因 芯片 数据 的 提取 >> 


双 通道 心 片 使 用 CyS( 红 ) 和 Cy3( 绿 ) 两 种 殉 光 分 别 标记 实验 样本 和 对 照样 本 的 cDNA 厅 
列 ,然后 杂交 至 同一 必 片 。 用 不 同 波长 的 激光 扫描 芯片 ,获得 殉 光 强度 值 。 每 个 奖 光 点 的 原 
始 信 号 值 包括 前 景 值 和 背景 值 ,该 点 的 严 光 强度 则 用 前 景 值 减 去 背景 值 表 示 。cDNA 心 片 扫 
描 得 到 的 结果 反映 了 基因 在 实验 样本 和 对 照样 本 中 的 相对 表达 水 平 。 在 扫描 后 的 芯片 图 
像 上 ,红色 表示 该 点 所 检测 的 基因 在 实验 样本 中 表达 呈现 上 调 ,绿色 表 示 表 达 下 调 , 黄 色 表 
示 表 达 无 改变 。 对 于 单 通道 必 片 ,扫描 后 的 奖 光 强度 由 深 到 浅 依次 为 蓝 黑 、 蓝 \、 高 蓝 、 绿 、 黄 、 
柱 \ 红 \ 白 。 颜 色 越 深 表 示 痰 光 强 度 越 高 , 即 与 探 针 杂交 的 RNA 越 多 ,从 而 基因 的 表达 量 越 高 。 
心 片 扫描 系统 的 图 像 处 理 软 件 包 括 将 灾 光 信号 转化 成 数字 信号 的 数据 提取 过 程 和 基于 探 针 
集 的 基因 表达 值 汇总 过 程 。 提 取 后 的 基因 表达 数据 可 以 用 和 矩阵 形式 表示 , 行 代 表 基 因 , 列 代 
表 样 本 , 算 阵 中 的 元 紊 表示 基因 在 样本 中 的 表达 水 平 ,这 种 类 型 的 数据 通常 被 称 为 基因 表达 


谱 ( gene expression profile )。 


二 、 数 据 过 滤 >> 


数据 过 滤 是 数据 分 析 前 必须 进行 的 一 项 工作 。 基 因 芯 片 中 每 个 点 的 信号 强度 是 前 景 
信号 值 减 去 背景 信号 值 , 然 而 ,有 时 会 出 现 负 值 或 很 小 的 值 ,显然 负 值 是 没有 生物 学 意义 的 。 
男 外 ,由 于 过 闪 炊 现象 物理 因 素 导 致 的 信号 污染 、 杀 交 效 能 低 或 点 样 问题 等 因素 都 可 能 导 
致 数据 的 不 真实 。 数 据 过 滤 的 目的 就 是 要 去 除 表 达 水 平 是 负 值 、 很 小 的 数据 或 者 明显 的 品 
声 数 据 , 通 第 的 处 理 方法 是 将 它们 置 为 缺失 、 赋 子 统 一 的 数值 或 者 去 除 。 
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三 、 补 缺失 值 》》》 


基因 表达 水 平 过 高 或 过 低 都 会 影响 荧光 强度 的 检测 ,导致 数据 缺失 ; 其 他 因素 ,例如 芯 
片 图 像 的 损坏 .指纹 ` 灰 侍 等 原因 ,也 会 产生 缺失 值 。 数 据 的 缺失 对 于 后 续 的 数据 分 析 有 着 
很 大 的 影响 ,为 了 保证 基因 表达 数据 的 完整 性 ,补缺 失 值 是 十 分 必要 的 ,常用 的 方法 有 直接 
删除 、 补 均值 Kk 近邻 法 和 回归 法 等 。 

最 简单 的 方法 就 是 直接 删除 含有 缺失 值 的 行 向 量 或 列 向 量 ; 或 者 计算 每 行 或 每 列 中 含 
有 的 缺失 值 数 目 , 如 果 缺 失 值 过 多 , 则 删除 此 行 或 列 ,否则 用 0、 每 行 或 每 列 的 均值 或 中 值 进 
行 补 缺 。 但 用 此 方法 补 出 的 缺失 值 很 难 评估 其 与 真实 值 的 接近 程度 ,因此 ,还 可 以 用 k 近 邻 
法 和 回归 法 等 来 估算 缺失 值 。 

k 近 邻 法 的 基本 思想 是 利用 与 待 补缺 基因 距离 最 近 的 k 个 邻居 基因 的 表达 值 推测 待 补缺 
基因 的 表达 值 。 首 先 确 定 含 有 缺失 值 的 基因 的 k 个 邻居 ,然后 利用 邻居 基因 在 该 样本 中 的 加 
权 平 均 佑 计 缺 失 值 ,常用 的 定义 邻居 基因 的 距离 函数 有 欧式 距离 或 相关 系数 。 

回归 法 与 近邻 法 相似 ,首先 确定 待 补缺 基因 的 k 个 邻居 ,然后 利用 每 个 邻居 基因 分 别 作 线 
性 回归 模型 预测 缺失 值 , 最 后 将 k 个 缺失 值 加权 求 平均 作为 最 终 缺 失 值 的 估计 值 。 基 本 步骤 为 : 

1. 确定 含有 缺失 值 的 基因 i 的 k 个 邻居 基因 , 设 Xi,%… XLI AED BT En T FE p 


的 表达 水 平 。 
2. 具有 缺 失 值 的 基因 i; 较 之 邻居 基因 分 别 作 线 性 回归 模型 
X,=a,+bX, 
X =a,+b,X, ( 2-1) 
X, =a, tb, X, 


3. SEF In U- p PEU PR 2] i A: E. Ce c E D ERES Gn eA (AR): 
x. -a tb, 


i =d, +b,X, , (2-2) 
x =a, +b, x, ; 
4. K 个 缺失 值 的 加 权 平 均 作 为 最 终 缺 失 值 的 估计 值 : 
X, = 2 Wi; (2-3) 
ix Bw JA ps E DAL A ALA SSCA AYRE Si IK, RSA 


FETAL tS Fr BD — REC SE a ASP AG OS EE — AT o RER RAE eS, BE 
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会 近似 服从 正 态 分 布 (图 2-5 ), 从 而 为 后 续 的 数据 分 析 市 来 方便 ,通常 取 以 2 为 底 的 对 数 








EC UE. GW ees — 
15 20 -4 


转换 。 
= 
- pe SE 
- = 
S ‘ = 
(| : 和 : 
WwW 
" _ m h 
5 10 -2 0 2 4 


0 
Ratio Log(Ratio) 
图 2-5 数据 对 数 转 换 前 后 log 一 Ratio 值 分 布 图 


五 数据 标准 化 >>> 


由 于 实验 条 件 基质、 染料 物理 特性 ,点 样 针 以 及 扫描 仪 采集 数据 时 的 参数 设置 等 存在 
着 差异 ,因此 ,基因 芯片 实验 不 可 避免 地 产生 了 一 些 系统 误差 。 数 据 标准 化 ( normalization ) 
的 目的 就 是 去 除 这 些 系统 误差 ,从 而 挖掘 出 真正 的 生物 学 变异 ,确保 后 期 数据 分 析 的 可 

在 对 芯片 进行 标准 化 处 理 时 ,通常 涉及 参照 基因 的 选择 问题 ,那么 哪些 基因 适合 作为 参 
照 物 呢 ? 一 般 是 以 具有 稳定 表达 的 基因 作为 芯片 标 化 的 参照 基因 ,这些 基 因 在 不 同 条 件 下 
表达 值 相同 ,因此 , 测 得 基因 的 荧光 强度 值 的 差异 主要 是 由 系统 误差 造成 的 ,这 样 便 可 估计 
出 系统 误差 的 大 小 。 稳 定 表 达 的 基因 主要 有 以 下 几 种 : 持家 基因 和 人 工 合成 的 控制 基因 可 
以 作为 参照 基因 ,但 是 由 于 实验 误差 以 及 杂交 特异 性 的 问题 ,它们 通常 并 不 像 人 们 想象 的 那 
样 在 不 同 实验 条 件 下 稳定 表达 ,这 就 使 得 标准 化 结果 的 可 靠 性 不 高 ; 此 外 ,在 基因 芯片 中 , 真 
正 表 达 异 常 的 基因 只 有 一 小 部 分 ,大 部 分 基因 在 不 同 条 件 下 都 是 稳定 表达 的 ,所 以 运用 这 大 
部 分 稳定 表达 的 基因 作为 参照 基因 ,标准 化 结果 更 为 可 靠 。 

由 于 单 、 双 通道 芯片 制作 原理 不 同 , 系 统 误 差 的 来 源 也 不 同 , 所 以 在 进行 数据 标准 化 时 
需要 选用 不 同 的 方法 。 


(一 ) cDNA 芯 


cDNA 世 片 的 数据 标准 化 主要 分 为 片 内 标准 化 和 片 间 标准 化 。 片 内 标准 化 是 对 一 个 实 
验 中 的 不 同 芯片 进行 独立 操作 ,一般 指 去 除 效 光 染 色 和 点 样 针 带 来 的 系统 误差 。 片 间 标 准 
化 的 目的 是 去 除 不 同 芯 片 间 的 系统 误差 ,使 不 同 忌 片 检 测 的 基因 表达 值 具 有 可 比 性 。 

1. 片 内 标准 化 ” 片 内 标准 化 的 主要 方法 有 全 局 标准 化 .荧光 强度 依赖 的 标准 化 和 点 样 
针 组 内 标准 化 。 本 节 重 点 介绍 全 局 标准 化 方法 ,主要 过 程 如 下 : 

cDNA 世 片 检测 的 效 光 强度 值 表示 的 是 基因 的 相对 表达 水 平 , 取 对 数 后 (log-Ratio 值 Xr 
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似 服从 正 态 分 布 。 由 于 芯片 上 大 部 分 基因 的 表达 都 是 稳定 的 ,所 以 芯片 上 所 有 基因 的 log- 
Ratio 值 均值 应 该 为 0( 图 2-6 黄 线 所 示 )。 而 实际 上 ,由 于 红 光 和 绿 光 的 奖 光 强度 存在 差异 , 即 
使 表达 完全 相同 的 两 个 基因 经 Cy$ 和 Cy3 标 记 后 所 测 得 的 欧 光 强度 也 不 一 致 ,因此 , log-Ratio 
值 分 布 的 均值 会 仿 离 0( 图 2-6 红 线 所 示 )。 全 局 标准 化 的 目的 就 是 将 实际 测 得 的 log-Ratio 值 
分 布 的 峰值 位 置 移 至 0 处 ,公式 如 下 : 

log,.R/G — log,R/G-c (2-4 ) 
其 中 , c 表 示 忆 片上 所 有 基因 的 log-Ratio 的 中 值 或 均值 。 
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图 2-6 全 局 标准 化 前 后 log 一 Ratio 值 分 布 图 
来 源 于 : Yang et al.: Normalization for cDNA microarray data: a robust composite 
method addressing single and multiple slide systematic variation.Nucleic 
Acids Res.,2002,30( 4 ): e15. 


全 局 标准 化 消除 了 染料 偶 倚 带 来 的 系统 误差 ,应 用 较为 普遍 。 在 芯片 实验 中 ,染料 偏 倚 
的 大 小 还 依赖 于 获 光 强度 的 高 低 ,在 不 同 的 荧光 强度 下 ,对 应 的 log-Ratio 值 分 布 的 峰值 偏离 
0 的 大 小 也 不 同 。 因 此 , 灾 光 强度 依赖 的 标准 化 的 目的 就 是 将 不 同 严 光 强 度 对 应 的 log-Ratio 
值 分 布 的 峰值 移 回 0 处 ,消除 荧光 强度 依赖 的 染料 偏 傈 。 此 外 ,由 于 点 样 针 的 长 短 . 粗细、 磨 
损 程 度 点 样 顺序 等 差异 的 存在 ,也 会 引入 系统 误差 ,点 样 针 组 内 标准 化 正 是 为 了 消除 这 种 
点 样 针 读 来 的 系统 误差 。 

2. 片 则 标准 化 ” 片 间 标 化 的 常用 方法 有 分 位 数 标 准 化 和 中 位 数 标准 化 。 

(1 ) 分 位 数 标准 化 : 分 位 数 标 化 的 前 提 假 设 是 每 张 芯 片 所 检测 的 数据 具有 相同 的 分 布 ， 

1 ) 将 基因 表达 谱 中 的 每 列 (每 张 芯片 ) 数 据 分 别 按照 从 大 到 小 排序 。 

2 ) 在 排序 后 的 和 矩阵 中 ,每 行 每 个 位 置 的 数据 均 用 该 行 的 均值 所 替代 。 

3 ) 将 新 矩阵 的 每 列 数 据 分 别 按 照 在 原 和 矩阵 中 的 位 置 重新 排序 ,从 而 得 到 标准 化 的 基因 
dui. 

将 必 片 进行 分 位 数 标准 化 后 就 能 保证 每 张 芯片 具有 完全 相同 的 数据 分 布 。 
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(2) 中 位 数 标准 化 : 对 于 双 通 道 心 片 数 据 来 说 ,中 位 数 标准 化 方法 就 是 将 每 张 芯 片上 的 
数值 减 去 各 目 忆 片上 log-Ratio 值 的 中 位 数 。 通 过 这 样 的 处 理 , 所 有 芯片 的 log-Ratio 值 的 中 位 
数 就 都 变 成 了 0, 从 而 使 得 不 同 世 片 间 的 log-Ratio 值 具有 可 比 性 。 


(二 ) 单 通道 芯片 


由 于 单 、 双 通道 芯片 的 制备 原理 不 同 , 系 统 误差 的 来 源 也 不 同 。 相 比 于 双 通 道 的 cDNA 
AH ,与 单 通道 的 寡 核 苷 酸 必 片 杂交 的 是 单个 样本 , 而 不 是 实验 样本 与 对 照样 本 的 混合 物 ， 
所 以 单 通道 芯片 不 存在 cDNA 芯片 中 所 涉及 的 染料 偏 倚 所 带 来 的 系统 误差 ; 此 外 , 单 通道 芯 
片 的 探 针 一 般 是 采用 原 位 合成 的 方法 而 非 点 样 法 ,所 以 也 不 存在 点 样 针 的 差异 所 产生 的 系 
统 误 差 。 因 此 , 单 通道 必 片 的 系统 误差 主要 是 由 不 同心 片 间 的 差异 所 引起 的 ,其 标准 化 方法 
与 双 通 道 的 标准 化 方法 类 似 的 ,这 里 不 再 单独 介绍 。 


六 、 应 用 举例 >>> 


BRB-Arraytools 是 基因 忌 片 数据 预 处 理 的 常用 软件 之 一 (详细 的 功能 描述 见 本 章 第 六 
T). 在 此 ,我 们 以 一 套 阿尔 痰 海上 默 病 相关 的 基因 表达 谱 数 据 为 例 来 详细 讲解 如 何 利 用 该 软 
件 进 行 数据 预 处 理 , 该 套数 据 是 利用 Affymetrix 公 司 的 寡 核 苷 酸 芯片 HG-U133 Plus 2.0 Array 
检测 阿尔 次 海 默 病 病人 和 正常 老年 人 大 脑 中 六 个 不 同 区域 的 基因 表达 情况 ,其 在 GEO( gene 
expression omnibus ) 数据 库 中 的 编号 为 CSE$281。 我 们 仅 选 择 其 中 一 个 区 域 一 一 内 侧 显 回 
( middle temporal gyrus, MTG ) 的 数据 来 进行 说 明 ,具体 操作 步骤 如 下 : 

第 一 步 : 导入 必 片 数据 (图 2-7 )。 使 用 "Import data” FAY “General Format Importer” 导 
入 基因 心 刻 数据 文件 ,在 该 文件 中 数据 之 间 应 为 Tab 键 分 隅 (或 使 用 Excel 文 件 ), 此 外 ,也 可 使 
用 “Data Import Wizard” 进 行 导 入 。 
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图 2-7 导入 芯片 数据 
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第 二 步 : 选择 文件 类 型 (图 2-8 )。 如 果 需 要 导入 的 基因 必 卢 数据 是 每 张 必 请 用 单独 的 文 
件 存 储 , 多 个 文件 保存 在 一 个 文件 夹 中 , 则 选择 “Arrays are saved in separate files stored in one 
folder”; 如 果 多 张 必 片 数据 组 织 成 一 个 矩阵 的 形式 ,存储 在 一 个 文件 中 , 则 选择 “Arrays are 
saved in a horizontally aligned file" , 由 于 本 例 的 数据 是 存储 在 一 个 文件 中 的 基因 表达 谱 数 据 ， 
因此 ,我 们 选择 后 者 。 


qe fies lene note your fles must bea demit tt He. For othar Tia ypas, please use 
ee ee ee 





图 2-8 选择 文件 类 型 
第 三 步 : 选择 忆 片 数据 文件 所 存储 的 路 径 ( 图 2-9 ,注意 路 径 中 不 能 包含 中 文 )。 
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图 2-9 选择 芯片 数据 文件 所 在 路 径 


第 四 步 : 选择 基因 心 片 的 平台 (图 2-10 )。 在 该 步 选择 心 片 的 平台 类 型 ( 单 通 起 或 双 通 
道 ), 如 果 是 Affymetrix 公 司 的 单 通道 必 片 ,还 可 以 进一步 指定 具体 的 平台 型 号 ,此 外 ,在 该 步 
又 还 需要 选择 所 导入 的 数据 是 否 进行 了 log2 对 数 转换 。 由 于 本 例 中 采用 的 是 Affymetrix 公 司 
的 HG-U133 Plus 2.0 Array 平 台 , 并 且 未 进行 过 log2 对 数 转换 ,所 以 我 们 在 相应 位 置 选择 具体 
的 平台 信息 ,同时 不 选择 “The data are already log2 transformed.” 

第 五 步 : 指定 所 导入 的 文件 中 的 数据 区 域 (图 2-11 )。 通过 选择 文件 中 的 标题 行 、 第 一 行 
数据 、 探 针 所 在 列 、 第 一 列 数 据 和 第 二 列 数据 来 确定 基因 表达 谱 的 数据 区 域 ,点 击 “Next” 会 
显示 导入 的 文件 中 所 包含 的 基因 芯片 的 个 数 , 即 数据 的 列 数 。 

第 六 步 : 数据 的 过 滤 和 标准 化 (图 2-12 )。 该 部 分 包括 三 个 子 步 又 ,首先 是 探 针 的 过 波 ， 
删除 那些 表达 强度 很 低 或 无 意义 的 探 针 数据 ; 然后 是 数据 的 标准 化 ,该 软件 整合 了 分 位 数 标 
准 化 和 中 值 标准 化 等 多 种 方法 ; 最 后 是 基因 的 过 滤 , 因 为 我 们 更 关心 那些 随 着 实验 条 件 的 改 
变 表达 水 平 发 生变 化 的 基因 ,因此 ,在 这 步 可 以 将 那些 表达 波动 较 小 的 基因 去 除 。 
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图 2-11 选择 文件 格式 
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图 2-12 选择 标准 化 方法 


第 七 步 : 基因 注释 (图 2_13 )。 由 于 基因 芯片 检测 的 是 探 针 的 表达 情况 ,而 探 针 和 基因 之 
间 往往 不 是 一 一 对 应 的 ,所 以 ,在 数据 导入 后 软件 会 询问 是 否 需要 进行 基因 注释 , 即 是 否 需 
要 将 探 针 转换 成 相应 的 基因 名 ( gene symbol ) 或 Entrez ID。 






图 2-13 选择 是 否 对 基因 做 注释 


经 过 以 上 步骤 ,基因 芯片 的 预 处 理 已 经 结束 ,我 们 获得 了 经 过 过 滤 的 标准 化 数据 ,基于 
该 数据 可 以 进行 接 下 来 的 深入 分 析 。 
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特征 基因 挖掘 





Section 3 Feature Gene Mining 


特征 选择 ( feature selection ) 是 按照 某 一 个 评价 准则 从 描述 实例 的 高 维特 征集 中 搜索 出 
低 维 的 最 优 特征 子 集 ,从 而 最 大 限度 地 提高 分 类 需 的 性 能 (分 类 器 将 在 本 章 第 五 节 详 细 介 
绍 )。 特 征 个 数 越 多 越 容 易 引 起 “维度 灾难 ” ,得 到 的 模型 越 复杂 ,可 移植 性 也 随 之 下 降 。 特 
征 选择 能 够 通过 剔除 元 余 特 征 ,减少 特征 数目 ,达到 提高 模型 精度 ,减少 运行 时 间 的 目的 。 
基因 心 片 数 据 具 有 高 维度 ,高 信 噪 比 、 高 相关 (元 余 ) 的 特点 ,基于 基因 表达 谱 从 大 量 的 基因 
中 寻找 对 疾病 有 鉴别 力 的 基因 或 疾病 相关 基因 作为 疾病 标志 物 ,也 就 是 基因 芯片 分 析 中 的 
特征 选择 问题 。 


一 特征 选择 的 过 程 >>> 


特征 选择 过 程 通常 包含 以 下 四 个 方面 : 开始 点 的 选择 ; 搜索 策略 ( search strategy ); 评价 
准则 ( evaluation criteria ); 停止 条 件 。 在 实际 学 习 中 ,选择 一 个 较 优 的 特征 子 集 主要 依赖 于 
搜索 策略 和 评价 准则 这 两 个 方面 。 总 的 来 说 ,特征 选择 的 理想 效果 是 : 将 所 有 可 能 的 特征 子 
集 作为 属性 训练 分 类 需 ,然后 选取 能 够 使 分 类 需 达 到 最 佳 分 类 效能 的 特征 子 集 。 


(一 ) 开始 点 的 选择 


从 大 量 特征 中 选择 构成 最 优 特征 子 集 的 特征 ,需要 对 特征 全 集 进 行 搜索 ,搜索 的 方 回 
受 开 始点 选择 的 影响 。 如 有 果 把 空 集 作 为 初始 特征 子 集 ,逐次 递 加 特征 进入 特征 子 集 , 称 为 回 
前 选择 ( forward selection ); 如 果 把 含有 所 有 特征 的 特征 全 集 作 为 初始 特征 子 集 ,逐次 剔除 特 
征 称 为 回 后 选择 (backward elimination )。 此 外 ,还 有 比较 复杂 的 开始 点 选择 方式 ,例如 : 如 
果 把 包含 一 定数 目 特征 的 特征 子 集 作为 初始 特征 子 集 ,然后 回 外 扩展 , 称 为 双 回 搜索 (bi- 
direction search ); 从 随机 选择 的 特征 子 集 开始 搜索 ,再 随机 增加 或 减少 特征 , 则 称 为 随机 搜 


索 (non-deterministic search )。 


(二 ) 搜索 策略 


理想 情况 下 ,搜索 东 略 应 该 能 够 以 较 低 的 计算 花费 找到 最 优 特 征 子 集 。 但 通常 这 两 个 
条 件 不 能 同时 满足 ,需要 折 中 权衡 。 现 有 的 搜索 策略 有 许多 种 ,按照 寻找 特征 子 集 的 过 程 大 
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致 可 归纳 为 以 下 三 类 : 完全 搜索 ( complete search ) 启 发 式 搜 索 ( heuristic search ) 和 随机 搜索 
( non—deterministic search )。 

l. 完全 搜索 ” 穷 举 法 是 最 常见 的 一 种 完全 搜索 方法 ,其 通过 遍历 所 有 可 能 的 特征 子 
集 , 从 而 保证 搜索 到 的 是 最 优 特征 子 集 。 分 枝 定 界 法 是 按照 定好 的 界 进行 分 枝 ,其 本 质 仍 是 
穷 举 法 。 将 所 有 特征 子 集 组织 成 树 形 结构 ,这些 特 征 子 集 构 成 解 空 间 。 所 谓 “ 分 校 ” 就 是 不 
靳 将 解 空间 分 割 成 更 小 的 解 子 集 ,“ 定 界 ” 则 是 对 分 割 得 到 的 更 小 解 子 集 计算 一 个 上 界 或 下 
界 , 对 超越 出 该 界限 的 解 子 集 ( 即 非 最 优 的 特征 子 集 ) 不 再 进行 分 校 。 通 过 缩小 搜索 范围 ,分 
术 定 界 法 能 够 提高 算法 效率 ,同时 也 能 够 求 得 最 优 解 。 以 上 两 种 方法 都 是 以 大 量 的 时 间 和 
空间 消耗 为 代价 来 获得 最 优 解 , 当 特征 维 数 较 小 时 ,可 以 获得 很 好 的 效果 。 但 当 特 征 维 数 较 
大 时 ,由 于 运算 量 太 大 ,用 计算 机 实现 也 可 能 会 遇 到 困难 。 因 此 , 当 特 征 维 数 较 大 时 ,可 以 采 
用 局 发 式 搜索 来 缩小 搜索 范围 ,获得 次 优 解 。 

2. 启发 式 搜索 ELLIE greedy climbing hill )、 遗 传 算法 ( genetic algorithm ) 模 拟 退 
火 算法 (simulated annealing algorithm ) 和 Tabu 搜 索 算 法 等 都 属于 启发 式 搜 索 算 法 。 这 些 算 法 
的 主要 思想 是 人 类 经 过 长 期 对 物理 、 生 物 和 社会 的 仔细 观察 和 实践 ,通过 对 这 些 现象 的 深刻 
理解 ,逐步 问 目 然 学 习 ,模仿 它们 的 运行 机 制 而 得 到 的 ,如 模拟 退火 受 物 理学 上 固体 物质 的 
退火 现象 司 迪 ,遗传 算法 则 得 益 于 生物 进化 论 。 局 发 式 搜索 通常 从 可 行 的 初始 解 出 发 ,采用 
迭代 改进 的 策略 ,能 较 快 接近 最 优 解 ,但 不 能 保证 得 到 的 解 一 定 是 最 优 解 。 

CIO REEL: 贪 焚 登 山 法 包括 顺序 前 进 法 顺序 后 退 法 和 增 7 减 9 法 。 顺 序 前 进 法 每 
次 从 未 入 选 的 特征 中 选择 一 个 ,加 入 已 人 选 特征 的 集合 ,使 其 与 已 人 选 特征 组 合 在 一 起 时 所 
得 的 目标 函数 最 大 (如 分 类 需 的 正确 率 最 高 ), 直到 特征 数 增加 到 一 定数 目 为 止 。 类 似 地 , 顺 
序 后 退 法 从 所 有 特征 构成 的 集合 开始 ,每 次 剔除 一 个 特征 ,所 史 除 的 特征 应 该 使 仍然 保留 的 
特征 所 得 到 的 目标 也 数 最 大 。 顺 序 前 进 法 和 顺序 后 退 法 都 是 进行 简单 的 串 行 搜索 ,会 遗漏 
掉 大 量 的 特征 组 合 , 而 且 一 旦 某 个 特征 被 选 入 ( 吻 除 ), 就 不 能 再 吻 除 ( 选 入 )。 为 了 弥补 这 种 
不 可 回溯 的 缺点 ,可 以 在 搜索 过 程 中 加 入 局 部 回溯 ,这 就 是 增 减 9 法 。 增 减法 是 在 未 中 
先 用 顺序 前 进 法 逐个 加 入 特征 到 k+r 个 ,然后 再 用 顺序 后 退 法 逐个 吻 除 q 个 特征 。 

( 2 ARRIA: 根据 达尔 文 的 生物 进化 论 , 自 然 界 中 的 每 个 个 体 不 断 对 环境 学 习 和 适应 ， 
然后 通过 交 义 方式 产生 新 的 后 代 , 这 就 是 基因 的 遗传 。 通 过 遗传 ,这 些 后 代 继 承 了 双亲 的 优 
民 特 性 ,并 继续 对 环境 学 习 和 适应 。 基 因 突 变 发 生 在 交 义 之 后 ,有 利 的 变异 由 于 自然 选择 的 
作用 得 以 遗传 与 保留 ,而 有 害 的 变异 则 将 逐步 被 淘汰 。 遗 传 算法 是 一 种 模拟 生物 的 进化 过 
程 ( 遗 传 .变异 和 上 自然 选择 ) 的 用 于 优化 的 搜索 算法 ,可 以 避免 出 现 局 部 极 值 。 遗 传 算法 遵循 
适 者 生存 优胜劣汰 的 法 则 , 即 在 寻 优 过 程 中 将 有 用 的 特征 保留 ,去 除 见 余 或 不 相关 的 特征 。 
由 于 遗传 算法 具有 良好 的 并 行 性 、 通 用 性 和 稳健 性 ,因此 它 在 特征 选择 领域 具有 广阔 的 应 用 
前 景 。 

下 面 介绍 遗传 算法 用 到 的 基本 术语 : 

基因 链 码 : 目 然 界 的 生物 所 表现 出 的 各 种 性 状 是 遗传 基因 所 决定 的 ,生物 的 遗传 特性 
使 生物 界 的 物种 能 够 保持 相对 的 稳定 。 使 用 遗传 算法 解 特征 选择 问题 时 ,需要 把 问题 的 每 
一 个 解 编码 成 一 个 基因 链 码 。 基 因 链 码 是 对 多 个 基因 编码 所 得 到 的 字符 串 ,字符 串 的 每 一 
位 代表 一 个 基因 。 一 个 基因 链 码 就 代表 问题 的 一 个 解 ,相当 于 自然 界 中 的 个 体 。 简 单 的 编 
人 码 可 以 采用 二 进 制 形 式 , 即 用 和 N 位 的 0, 1 代码 构 成 的 字符 串 表 示 一 个 特征 集合 ,其 中 数字 1 对 
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应 的 特征 被 选中 ,数字 0 对 应 的 特征 未 被 选中 。 

群体 : 许多 个 体 的 集合 构成 群体 。 个 体 代 表 问 题 的 一 个 解 , 群 体 则 是 问题 的 多 个 解构 成 
的 集合 。 

交叉 : 选择 群体 中 的 两 个 个 体 作为 双亲 ,在 配对 的 两 个 个 体 中 设置 截断 点 ,然后 交换 两 
个 个 体 的 信息 产生 后 代 个 体 。 简 单 的 交叉 方法 可 以 通过 随机 配对 产生 双亲 个 体 (对 应 两 个 
基因 链 码 ) 并 随机 选择 截断 点 ( 即 基因 链 码 中 的 某 一 位 ), 然 后 将 两 个 基因 链 码 在 截断 点 切 开 
并 交换 其 后 的 基因 链 码 ,从 而 组 合成 两 个 新 的 基因 链 码 ,也 就 是 双亲 个 体 通 过 交叉 繁殖 出 同 
样 数量 的 后 代 个 体 。 复 杂 的 交叉 方法 可 以 自行 设 定 截 断 点 和 双亲 个 体 , 无 论 使 用 何 种 交叉 
方法 都 以 培育 出 更 适应 环境 的 后 代为 最 终 目的 。 

变异 : 这 里 的 变异 沿用 了 生物 学 中 基因 突变 的 概念 ,生物 的 变异 特性 使 生物 个 体 产生 
新 的 性 状 , 最 终 积累 形成 新 的 物种 。 变 异 方法 是 针对 某 个 个 体 ( 即 一 个 基因 链 码 ) 随机 选取 
某 个 基因 ( 即 基因 链 码 的 某 个 位 点 ), 将 该 基因 进行 变异 操作 。 比 如 ,对 二 进 制 编码 得 到 的 基 
因 链 码 ,只 需 将 已 选 的 位 点 处 的 数字 从 1 换 成 0 或 者 从 0 换 成 1。 

适应 度 : 每 个 个 体 对 应 优化 问题 的 一 个 解 ,根据 优化 问题 的 目标 函数 ,对 应 每 个 解 求 得 
函数 值 。 如 果 优 化 问题 要 求 取 最 大 ,那么 使 函数 值 越 大 的 解 越 接近 最 优 解 ,也 就 是 表明 该 个 
体 对 环境 的 适应 度 越 高 。 

(3 )Tabu 搜 索 算 法 : Tabu 搜 索 算法 是 一 种 全 局 逐步 寻求 最 优 的 算法 ,该 算法 假定 一 个 解 
的 邻 域 中 往往 存在 性 能 更 好 的 解 。Tabu 搜 索 算 法 应 用 于 特征 选择 中 时 , 解 的 性 能 高 就 是 指 
使 用 相应 的 特征 子 集 (或 特征 组 合 ) 的 分 类 效果 好 ,一 般 用 可 分 性 判 据 来 度量 。 该 算法 中 使 
用 了 “集中 ”和 “扩散 ”两 个 策略 ,局 部 搜索 过 程 体现 “集中 ”的 思想 ,也 就 是 从 一 点 出 发 ,在 
这 点 的 邻 域内 寻求 性 能 更 高 的 解 ,达到 局 部 最 优 解 而 结束 。“ 扩 散 ” 的 思想 则 体现 在 跳出 局 
部 最 优 的 过 程 ,通过 设置 Tabu 表 来 实现 跳出 局 部 极 小 。Tabu 表 用 来 记录 近期 搜索 过 的 解 , 如 
果 一 个 解 在 Tabu 表 中 , 则 说 明 近 期 该 解 曾 被 访问 过 ,在 未 来 一 段 时 间 内 禁止 访问 该 解 ,这 种 
解 被 认为 处 于 休眠 状态 。 Tabu 表 越 长 ,搜索 的 范围 越 广泛 ,获得 性 能 较 高 的 解 的 可 能 性 越 大 。 
Tabu 算 法 通过 禁止 访问 Tabu 表 中 已 记录 的 解 而 实现 对 邻 域 之 外 更 大 区 域 的 搜索 ,最 终 能 够 
跳出 局 部 最 优 找到 性 能 更 高 的 解 。 在 一 些 情况 下 ,需要 将 Tabu 表 中 处 于 休眠 状态 的 解 激活 ， 
使 其 再 次 参与 搜索 过 程 。Tuba 算 法 的 过 程 决 定 了 得 到 的 最 终 解 是 在 所 有 搜索 过 的 解 中 的 最 
优 解 。 

(4 ) 模 拟 退 火 算法 : 模拟 退火 算法 得 益 于 对 统计 物理 中 固体 物质 的 结晶 过 程 的 研究 。 
国体 物质 内 部 粒子 的 不 同 结构 对 应 于 粒子 的 不 同 能 量 水 平 。 在 高 温 条 件 下 ,粒子 的 能 量 较 
高 ,可 以 自由 运动 重新 排序 ,在 低温 条 件 下 ,粒子 能 量 较 低 。 在 升温 过 程 中 ,固体 物质 内 部 的 
粒子 随 温度 升 高 变 为 无 序 状 态 ,能 量 增 大 。 从 高 温 开 始 缓慢 降温 的 过 程 称 为 “退火 "。 在 退 
火 过 程 中 ,粒子 逐渐 趋 于 有 序 ,粒子 在 每 个 温度 都 能 达到 热平衡 状态 。 当 固体 物质 被 完全 冷 
却 时 ,最 终 形成 处 于 低能 状态 的 晶体 。 

模拟 退火 是 模拟 物理 系统 退火 过 程 的 随机 迭代 寻求 最 优 的 算法 ,理论 上 具有 一 定 概率 
下 的 全 局 优化 性 能 。 假 设 要 解决 一 个 寻找 最 小 值 的 优化 问题 ,在 迭代 的 开始 阶段 ,搜索 过 程 
的 随机 性 很 大 ,除了 接受 优化 解 (使 目标 函数 值 变 小 的 解 ) 之 外 ,还 以 由 温度 相关 的 系数 来 控 
制 的 概率 接受 恶化 解 (使 目标 函数 值 增 大 的 解 )。 当 迭代 一 定 次 数 后 ,进入 下 一 个 迭代 阶段 ， 
此 时 算法 接受 恶化 解 的 概率 较 前 阶段 要 有 一 定 降低 。 如 此 不 断 和 迭代 ,直到 达到 停止 准则 时 
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算法 终止 ,在 最 后 阶段 算法 将 不 接受 恶化 解 。 模 拟 退 火 算法 可 以 避免 陷入 局 部 极 小 值 ,得 到 
的 是 一 个 优化 解 ,并 且 它 可 能 是 全 局 最 优 解 , 但 是 不 能 保证 它 一 定 是 全 局 最 优 解 。 模 拟 退 火 
算法 在 应 用 于 特征 选择 中 时 ,首先 要 给 出 初始 温度 和 初始 特征 子 集 ,然后 给 出 该 特征 子 集 的 
邻 域 和 温度 下 降 方 法 。 

3. 随机 搜索 ”与 完全 搜索 和 局 发 式 搜索 不 同 , 随 机 搜索 以 随机 的 方式 搜索 下 一 个 特征 
子 集 ,当前 的 子 集 不 是 根据 某 个 决策 规则 直接 增长 或 缩小 得 来 的 。 该 搜索 策略 计算 复杂 
较 高 ,但 是 通过 设置 迭代 次 数 在 一 定 程 度 上 可 以 降低 复杂 度 。 


(三 ) 评价 准则 


评价 准则 通常 分 为 独立 标准 和 非 独 立 标 准 。 

1. 独立 标准 ”距离 .相似 性 (或 相关 性 ) 和 互信 息 等 多 种 测度 都 可 以 作为 独立 标准 。 明 
氏 距 离 是 常用 的 距离 测度 , 明 氏 距离 通过 考查 基因 表达 值 向 量 的 距离 大 小 来 反映 基因 表达 
的 差异 。 理 想 的 分 类 效果 是 类 内 基因 之 间 的 距离 很 小 ,而 类 间 基 因 之 间 的 距离 很 大 。 相 关 
系数 常常 作为 评价 相似 性 的 测度 ,基因 与 类 别 的 相关 系数 反映 基因 与 类 别 之 间 的 相关 程度 。 
选择 的 特征 基因 与 类 别 的 相关 程度 应 大 于 其 他 基因 与 类 别 的 相关 程度 。 相 关系 数 可 以 分 为 
线性 相关 ,如 皮尔 森 相 关系 数 ( pearson correlation coefficient ) 和 非 线 性 相关 ,如 斯 皮尔 曼 秩 相 
关系 数 ( spearman’ s rank correlation coefficient )。 此 外 ,信息 论 中 的 互信 息 指 标 也 可 用 来 评价 
基因 与 类 别 的 相关 程度 ,互信 息 越 大 说 明 该 基因 的 表达 模式 与 类 别 越 相 关 , 以 互信 息 最 大 化 
为 标准 可 以 用 来 评价 特征 基因 的 优 劣 ( 计 算 公式 请 参考 本 章 第 四 节 )。 

2. 非 独立 标准 ”以 分 类 正确 率 为 准则 的 标准 属于 非 独立 标准 。 在 有 监督 学 习 中 ,分 类 
的 主要 目标 是 分 类 器 预测 正确 率 最 大 化 。 因 此 ,可 利用 分 类 器 的 预测 正确 率 作 为 特征 选择 
的 评价 标准 。 男 外 也 可 考虑 其 他 的 指标 ,如 泛 化 能 力 和 时 间 复 杂 度 。 这 里 的 泛 化 能 力 是 指 
利用 一 种 分 类 器 选择 出 的 特征 基因 适合 用 于 其 他 分 类 器 的 能 力 。 


(四 ) 停止 条 件 


由 于 所 有 特征 构成 的 可 能 的 特征 子 集 的 数量 很 大 ,考察 所 有 的 特征 子 集 通 常 不 可 实现 ， 
因此 需要 某 种 停止 搜索 的 条 件 , 例 如 : 迭代 次 数 、 特 征 子 集 评价 标准 达到 国 值 或 不 再 继续 提 
高 等 。 一 个 较 优 的 停止 条 件 是 到 达 搜 索 终点 时 ,选择 的 子 集 为 最 优 特征 子 集 。 





二 、 特 征 选择 方法 的 分 类 》》》 


目前 ,特征 选择 方法 主要 分 为 三 类 : 过 滤 法 (filter method )、 缠 绕 法 ( wrapper method ). fé 
iiti: ( embedded method )。 在 过 滤 法 中 ,特征 选择 过 程 独立 于 分 类 算法 ,利用 一 些 独立 的 评 
价 标准 预先 完成 特征 子 集 选 择 , 然 后 再 进行 分 类 器 的 归纳 学 习 , 该 方法 通常 是 对 单 基因 进行 
逐一 评价 ,如 统计 检验 、 互 信息 等 。 过 滤 法 在 应 用 过 程 中 鲁 棒 性 强 , 运 行 速度 快 。 缠 绕 法 中 
特征 选择 过 程 与 分 类 算法 绑 定 ,将 分 类 算法 的 效能 作为 入选 特征 基因 子 集 的 评价 准则 ,由 于 
选择 的 特征 基因 子 集 能 够 与 分 类 器 的 决策 机 制 很 好 地 吻合 ,因此 ,对 检验 样本 的 划分 可 获得 
较 高 的 准确 率 。 镶 诸 法 则 是 特征 选择 过 程 与 分 类 过 程 并 行 的 一 类 特殊 方法 ,在 构建 分 类 器 
的 同时 进行 特征 基因 选择 ,决策 树 算法 是 常见 的 镶嵌 式 特征 选择 方法 。 
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” (一) 过 滤 法 


过 滤 法 是 机 融 学 习 中 进行 特征 选择 最 早 使 用 的 方法 ,所 有 的 过 滤 法 都 只 依赖 数据 本 身 
的 内 在 结构 信息 而 不 依赖 分 类 算法 对 特征 子 集 的 评价 ,不 考虑 所 选 的 特征 子 集 对 分 类 需 性 
能 的 影响 ,也 就 是 说 ,在 分 类 算法 运行 之 前 进行 特征 选择 ,二 者 相互 独立 。 我 们 可 以 根据 需 
要 选择 特征 集合 ,比如 ,使 特征 之 间 的 相关 度 尽 可 能 低 ,此 种 方法 适合 较 大 的 数据 集 。 过 滤 
法 由 于 与 分 类 算法 相互 独立 ,不 考虑 特征 子 集 对 分 类 器 分 类 效能 的 影响 ,所 选 出 的 特征 子 集 
SPARE RE — R35 FEBS e 

/检验 法 该 方法 运用 统计 学 上 传统 的 检验 寻找 在 两 类 间 特 征 值 有 差异 的 特征 ,应 用 于 
ea 就 是 寻找 疾病 和 正常 状态 之 间 差 异 表达 的 基因 ,这 些 基 因 就 是 特征 基 

因 。 检 验 法 首先 计算 每 个 基因 i 的 统计 量 


Lo ge 

i 2 2 (2.5 ) 
Sa | $5 
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其 中 x Mx, 分 别 表示 基因 i 在 第 一 类 和 第 二 类 样本 中 表达 水 平 的 均值 , ss 和 sa 分 别 是 第 一 
类 和 第 二 类 样本 中 基因 i 表达 水 平 的 标准 差 , n, 和 ,分 别 是 两 类 中 样本 的 数目 。 然 后 根据 统 
计量 t 得 出 相应 的 假设 检验 的 概率 p, 值 。 由 于 对 涉及 的 多 个 基因 进行 了 多 次 假设 检验 ,I 类 
错误 率 上 升 ,所 以 要 对 所 得 的 p 值 进行 多 重 检 验 校 正 。 负 用 的 多 重 检 验 校正 方法 有 Bonferroni 
校正 、FDR 等 。 


(二 ) 缠绕 法 


缠绕 法 依赖 于 特定 分 类 器 ,将 分 类 算法 能 入 特征 选择 过 程 中 ,以 分 类 正确 率 为 评价 准 
则 ,通过 一 定 的 搜索 策略 识别 优化 的 特征 基因 子 集 。 缠绕 法 计算 量 较 大 ,适合 较 小 的 数据 集 。 
与 过 滤 法 相 比 ,由 于 特征 选择 的 结果 由 分 类 各 的 正确 率 来 评价 ,因此 ,缠绕 法 能 够 将 所 选 的 
特征 与 分 类 絮 的 决策 进行 较 好 地 结合 ,通常 可 以 实现 分 类 准确 率 最 大 化 。 

遗传 算法 与 文 持 回 量 机 耦合 的 特征 选择 方法 ( genetics algorithm-support vector machine, 
CA-SVM ) 是 一 种 典型 的 缠绕 法 ,其 采用 遗传 算法 作为 搜索 策略 ,以 文 持 回 量 机 分 类 和 硕 的 效 
能 作为 特征 子 集 优 劣 的 评价 准则 。 该 算法 是 个 递归 的 过 程 , 对 杀 代 进行 遗传 操作 产生 后 代 。 
在 这 种 方式 下 ,优良 的 特征 基因 子 集 ( 即 提高 SVM 分 类 正确 率 的 特征 基因 子 集 ) 不 断 被 “ 进 
化 " ,直到 遇 到 停止 条 件 .。 其 中 ,特征 基因 子 集 的 编码 、 群 体 的 初始 化 .适应 度 计算 .遗传 操作 、 
控制 参数 的 设 定 ( 群 体 大 小 ,最 大 迭代 数 等 ) 是 GA-SVM 的 核心 内 容 。 此 外 ,选用 不 同 的 搜索 
算法 和 分 类 算法 ,缠绕 法 特征 选择 方法 还 有 许多 ,如 基于 遗传 算法 和 Ki 近邻 耦合 的 特征 选择 
方法 ( genetic algorithm and the k-nearest neighbor, GA-KNN )、 支 持 问 量 机 -递归 特征 消除 法 
( support vector machines—recursive feature elimination, SVM-RFE ) 等 。 

Li 等 人 利用 CA-SVM 方 法 分 析 了 弥漫 性 大 B 细 胞 性 淋巴 瘤 ( diffuse large B-cell lymphoma, 
DLBCL ) 相关 的 基因 芯片 数据 ,识别 区 分 DLBCL 两 个 亚 型 生发 中 心 B 细 胞 DLBCL( GCB-like 
DLBCL ) 和 活化 B 细 胞 DLBCL( AB-like DLBCL ) 的 特征 基因 子 集 。 基 因 表 达 谱 包括 21 个 
GCB-like DLBCL 样 本 和 21 个 AB-like DLBCL 样 本 ,以 及 4026 个 经 过 预 处 理 的 基因 。 在 该 研究 
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中 ,特征 子 集 被 编码 为 二 进 制 串 , 串 中 每 个 位 置 的 /0 表示 该 位 置 代表 的 基因 在 特征 子 集中 
出 现 /不 出 现 。 每 个 特征 子 集 表示 一 个 个 体 ,初始 群体 的 大 小 设 为 40, 在 随机 生成 初始 群体 
时 ,为 了 保留 较 多 具有 分 类 信息 的 基因 ,初始 群体 中 每 个 个 体 包 含 大 约 1/2 的 全 部 基因 。 以 
每 个 个 体 所 包含 的 基因 为 特征 构建 文 持 向 量 机 分 类 需 , 以 分 类 正确 率 作 为 适应 度 指标 评价 
个 体 的 好 坏 。 该 方法 通过 生存 竞争 实现 特征 子 集 的 优化 ,首先 为 避免 每 一 代 中 的 最 优 解 丢 
失 , 保 留 前 50% 的 优良 个 体 直接 进入 下 一 代 ; 然后 ,通过 随机 进行 交叉 和 变异 产生 下 一 代 的 
另外 50% 的 个 体 。 为 了 找到 具有 代表 意义 的 较 小 的 特征 基因 子 集 ,因此 采用 逐步 缩小 特征 
基因 数目 的 方法 : 在 上 一 轮 执行 完成 的 基础 上 把 最 优 个 体 对 应 的 表达 谱 子 矩阵 作为 新 的 人 研 
究 对 象 ,重复 执行 上 述 过 程 进行 迭代 ,直到 分 类 的 准确 率 下 降 小 于 0.001 且 选 出 的 特征 数 不 
再 变化 为 止 。 该 研究 共 迭 代 了 12 次 ,特征 基因 数目 的 变化 为 : 4026,1995,984,504,256,132, 
70,41,25,18,13,7, 最 终 得 到 了 由 7 个 基因 ( CYSLTRI , MME, D13S2489E, PIK3CG, SHMT2, 
Hs.348293 , Hs.291994 组 成 的 优化 的 特征 基因 子 集 。 该 方法 的 流程 图 如 图 2-14 所 示 。 最 后 ， 
作者 又 将 GA-SVM 方 法 与 其 他 的 特征 选择 方法 ( 检验、GA-KNN 等 ) 进 行 了 比较 ,在 多 种 分 
类 则 下 ,GA-SVM 选 取 的 特征 子 集 的 分 类 贡献 均 高 于 其 他 的 基因 子 集 (图 2-15 )。 
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以 决策 树 算 法 为 例 , 这 种 算法 用 树 型 结构 来 表示 分 类 规则 。 决 策 树 的 构建 就 是 进行 特征 选 
择 的 过 程 。 使 用 决策 树 进行 决策 的 过 程 就 是 从 根 节 点 开始 ,测试 待 分 类 样本 中 相应 的 特征 
属性 ,并 按照 属性 值 选 择 输出 分 支 ,直到 到 达 叶 子 节 点 为 止 , 将 叶子 节点 所 代表 的 类 别 作为 
最 终 样本 的 分 类 ,在 分 类 器 构建 的 过 程 中 ,每 一 个 非 叶 子 节 点 上 用 于 对 样本 进行 分 类 的 基因 
组 合 起 来 就 构成 了 特征 基因 子 集 。 篆 用 的 决策 树 算 法 有 CART ID3 和 C4.5 等 。 

Li 等 人 提出 了 一 种 基于 递归 决策 树 特征 基因 选择 的 集成 方法 ,在 构建 决策 树 分 类 需 的 


图 2-14 GA 一 SVM 算 法 流程 图 
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图 2-15 特征 选择 方法 的 比较 


同时 进行 特征 选择 ,该 方法 成 功 应 用 于 结肠 瘤 基 因 芯 片 ( 40 个 肿瘤 组 织 和 22 个 正常 组 织 中 的 
2000 个 人 类 基因 的 表达 水 平 ) 数 据 分 析 中 。 该 方法 的 基本 思路 是 首先 分 别 将 结肠 癌 和 正常 

组 织 样本 随机 分 为 近似 大 小 的 5 个 不 重 僵 子 集 , 即 结肠 癌 子 集 D( i=1,2，…,5 ) 和 正常 组 织 
TEN, Ciz1,2, :,5), D, 和 NN, 的 一 个 随机 配对 构成 一 个 检验 集 ,剩余 的 所 有 样本 构成 一 个 
训练 集 ,这 样 一 次 抽样 可 产生 25 个 训练 集 和 检验 集 对 ,重复 该 过 程 20 次 , 共 获 得 500 对 训练 集 
和 检验 集 对 。 在 每 对 数据 集 上 执行 一 次 特征 基因 识别 过 程 : 基于 训练 集 构 建 决 策 树 分 类 需 ， 
每 个 非 叶子 节点 上 的 基因 构成 特征 基因 子 集 Gj={g", 2°, c Wb 
用 检验 集 进行 分 类 效能 评价 。 这 样 就 得 到 了 一 系列 特征 基因 子 集 G|，…:, Gy, cn. Gros A 
后 计算 每 个 基因 在 所 有 这 些 子 集中 出 现 的 加 权 频 率 值 ( 权 值 可 定义 为 分 类 需 的 正确 率 ) FV, 
为 了 得 到 具有 统计 学 显著 性 的 特征 基因 ,作者 将 样本 的 类 别 进行 随机 扰动 ,重复 上 述 过 程 ， 
计算 在 随机 情况 下 基因 的 加 权 频 率 值 FF ,构建 随机 分 布 ,对 应 于 显著 水 平 0.01 的 经 验 国 值 
0.035 ic EFV ^, = 0.035 ( B= 0.01 ), 保 留 那些 FV 值 大 于 FV "的 基因 作为 特征 基因 ,最 终 共识 
别 出 20 个 基因 构成 了 优化 的 特征 基因 子 集 。 该 研究 的 结果 表明 基于 决策 树 的 特征 基因 选择 
方法 能 够 有 效 识别 复杂 疾病 相关 基因 。 


三 .应 用 举例 >> 


基因 心 片 数 据 分 析 中 篆 见 的 差异 表达 基因 识别 方法 可 以 归 为 特征 选择 中 的 过 滤 法 。 基 
因 世 片 显著 性 分 析 ( significance analysis of microarray, SAM ) 是 目前 使 用 较为 广泛 的 差异 表 
达 基 因 分 析 软 件 。SAM 通 过 计算 每 个 基因 的 统计 量 D 值 ,寻找 对 疾病 有 鉴别 力 的 基因 。SAM 
是 一 个 Excel 的 插件 ,安装 成 功 后 以 加 载 项 的 形式 出 现在 Excel 沫 单 栏 中 ,在 此 ,以 上 面 已 经 进 
行 过 预 处 理 标准 化 的 基因 芯片 数据 GSE5281 中 的 内 侧 里 回 区 域 的 基因 表达 谱 为 例 介绍 该 
软件 实现 差异 表达 分 析 的 过 程 。 由 于 这 是 一 个 两 类 非 配对 样本 的 问题 ,因此 ,应 当 以 如 下 格 
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SS 


Atty —5. 


式 准 备 数据 文件 : BIT RRR , RREH UARRA; 第 一 列 是 基因 Entrez ID ,第 二 
列 是 基因 Symbol ,其 余 列 为 表达 值 ; 还 需要 注意 前 两 列 首 行 应 为 空 。 
首先 ,要 将 经 过 预 处 理 的 表达 谱 数 据 GSE5281 用 Excel 打 开 并 选中 所 有 数据 ,在 Excel 菜 
单 栏 的 加 载 项 中 找到 SAM ,运行 SAM 得 到 设 定 SAM 方 法 所 需 参 数 的 界面 ,如 图 2-16。 这 里 
我 们 选择 两 类 非 配对 样本 做 统计 检验 ,由 于 表达 谱 数 据 已 进行 取 log 值 的 处 理 , 因 此 在 “Are 
data in log scale ? "后 面 要 选中 “Logged( base 2 ,选择 随机 100 次 以 获得 统计 量 D 相 应 的 p 值 ， 
按照 不 同 需 要 可 以 选择 更 大 的 随机 次 数 , 其 余 参 数 可 选择 上 默认 值 ,点 击 “OK” 即 可 继续 运行 ， 
弹出 SAM Plot Controller 窗 口 如 图 2-17。 
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图 2-16 SAM 的 参数 设 定 


接 下 来 ,在 SAM Plot Controller 窗 口 通过 设 定 Fold Change 但 和 delta 值 来 控制 差异 表达 分 析 
的 结果 。 点 击 “List Delta Table” 可 以 获得 delta 值 与 FDR 值 的 对 应 关系 。 在 此 ,我 们 找到 FDR 
为 0.01 时 对 应 的 delta 值 为 0.68。 然 后 ,通过 滑动 滑 块 或 手动 输入 delta 值 ,点 击 “List Significant 
Genes” 就 得 到 了 FDR 小 于 0.01 的 差异 表达 基因 ,本 例 共 选 出 了 2209 个 在 阿尔 次 海 默 病 病 人 
和 正常 人 脑 组 织 中 表达 发 生 显著 改变 的 基因 。 此 外 , SAM 还 以 图 形 化 方式 “SAM Plot” 对 结 
果 进 行 展示 (图 2-18 ), 其 中 显示 了 差异 表达 基因 的 期 望 得 分 与 观察 得 分 的 关联 关系 ,上 调 基 
因 用 红色 标识 ,下 调 基 因 用 绿色 标识 。 
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SAH Plot Controller 
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图 2-17 SAM Plot Controller® v 
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False Discovery Rate( % ) :.94 
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图 2-18 SAM Plot 
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Section 4 Clustering of Microarray Data 


聚 类 分 析 ( cluster analysis ) 是 基于 研究 对 象 属性 的 相似 性 ,对 研究 对 象 进 行 分 组 的 一 种 
方法 。 其 目标 是 使 组 内 样本 相似 ,组 间 样 本 有 差异 。 组 内 样本 相似 性 越 大 ,组 间 样 本 差异 越 
TA , 聚 类 效果 就 越 好 。 

对 于 基因 芯片 数据 来 次 ,可 以 从 如 下 两 个 方面 进行 聚 类 分 析 : 第 一 ,对 样本 进行 聚 类 ， 
即 研究 对 象 为 样本 ,属性 为 基因 ,基因 表达 相似 的 样本 聚 为 一 类 。 在 人 类 癌症 的 研究 中 ,对 
样本 进行 聚 类 主要 应 用 于 瘤 症 亚 型 的 识别 ,由 于 肿瘤 异 质 性 的 存在 , 即 临 床 表 型 相同 的 肿瘤 
往往 具有 不 同 的 分 子 机 制 , 因 此 利用 基因 芯片 数据 对 肿瘤 样本 进行 聚 类 ,有 助 于 从 分 子 层面 
识别 肿瘤 新 的 亚 型 ,为 肿瘤 患者 的 个 性 化 诊疗 提供 重要 参考 。 第 二 ,对 基因 进行 聚 类 , 即 研 
究 对 象 为 基因 ,属性 为 样本 ,在 样本 空间 中 表达 模式 相似 的 基因 聚 为 一 类 ,同一 类 的 基因 往 
往 具 有 功能 上 的 一 致 性 , 即 参 与 相同 的 代谢 通路 或 者 编码 同一 个 蛋白 质 复 合 物 等 。 

聚 类 分 析 中 最 主要 的 两 个 要 素 是 评价 研究 对 象 属性 相似 性 程度 的 距离 (或 相似 性 ) 尺 
度 ( distance scale ) 和 将 研究 对 象 分 组 的 聚 类 算法 (clustering algorithm ). 


一 、 聚 类 分 析 中 的 距离 (相似 性 ) 尺度 函数 》》 

距离 (相似 性 ) 尺 度 函 数 是 评价 研究 对 象 相 似 性 程度 的 函数 。 常 用 的 表达 相似 性 尺度 
有 几何 距离 .线性 相关 系数 . 非 线性 相关 系数 和 互信 息 等 。 

(一 ) 几何 距离 


几何 距离 可 以 衡量 研究 对 象 在 空间 上 的 距离 ,空间 上 相近 的 物体 可 以 运用 几何 距离 判 
断 为 同一 类 ,而 空间 上 较 远 的 物体 判断 为 不 同类 。 
常见 的 几何 距离 是 明 氏 距离 : 


d(x, y= S X, — Y, dr ( 2-6) 


其 中 x 和 y 为 样本 向 量 或 基因 向 量 , xi 和 yi 为 对 应 的 第 i 个 分 量 , 明 氏 距离 通过 考查 各 分 量 
的 差异 来 衡量 两 物体 的 距离 大 小 。 
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当 4=1 时 , 明 氏 距离 为 马 氏 距离 ( Manhattan ); 
当 4=2 时 , 明 氏 距离 为 欧式 距离 ( Eulidean ); 
当 4=o 时 , 明 氏 距离 为 切 氏 距离 ( Chebyshev ), 即 
d (x, y)=max, | x, — y, | (2-7) 


明 氏 距离 在 评价 两 物体 的 相似 性 时 ,没有 考虑 到 不 同 分 量 量 纲 差异 对 结果 的 影响 ,所 以 
用 明 氏 距离 作 相 似 性 太 度 时 ,应 该 先 对 数据 进行 标准 化 处 理 ,以 消除 不 同 分 量 之 间 的 量 纲 差 
寞 。 而 Camberra 中 离 则 不 需要 考查 各 分 量 量 纲 的 差异 : 


x -=x 
DP re (2-8) 








(二 ) 线性 相关 系数 


当 基 因 表 达 数 据 是 一 系列 具有 相同 变化 趋势 的 数据 时 ,运用 几何 距离 会 丢失 重要 的 信 
忌 。 图 2-19 中 描述 了 三 个 基因 在 五 个 时 间 点 的 表达 水 平 波动 情况 ,如 果 用 几何 距离 衡量 , 则 
基因 2 和 基因 3 相似 性 高 ,而 基因 1 与 基因 2 和 基因 3 相距 较 远 会 判断 为 相似 性 低 。 然 而 ,基因 1 
的 表达 水 平 在 不 同时 间 点 与 其 他 两 基因 具有 相似 的 波动 趋势 和 波动 幅度 ,通常 这 种 在 不 同 
时 间 点 或 样本 中 表达 模式 相似 的 基因 也 有 可 能 具有 功能 上 的 相关 性 ,但 是 用 欧 氏 距离 可 能 
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图 2-19 三 个 基因 在 五 个 时 间 点 的 表达 值 波动 图 


就 会 忽略 这 种 具有 生物 学 意义 的 基因 相关 关系 。 
这 时 ,一般 末 用 皮尔 和 森 相 关系 数 ( pearson correlation coefficient ) 来 衡量 基因 表达 模式 的 


相似 性 。 公 式 如 下 : 
_ x x -x y,-y 
r | | | (2-9) 


其 中 x 为 基因 癌 量 x 的 期 望 值 , 0 为 x 的 标准 差 ; y 为 基因 向 量 y 的 期 望 值 , 为 ?的 标准 差 ， 
1 为 向 量 x 的 维 数 ,即时 间 点 或 样本 的 个 数 。 
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(=) 非 线性 相关 系数 


在 实际 问题 中 可 能 存在 这 样 的 基因 ,它们 在 表达 上 不 具有 严格 的 线性 相关 关系 ,但 是 波 
动 趋势 却 相同 , 即 具有 同 升 或 同 降 的 变化 趋势 。 在 这 种 情况 下 可 以 用 非 线 性 相关 模式 来 衡 
量 基因 间 的 距离 。 
非 线性 相关 模式 一 般 用 斯 皮尔 曼 秩 相关 系数 ( spearman’ s rank correlation coefficient ) it 
行 衡量 : 
6) d’ 


r7 ea (2-10) 





其 中 4 为 每 对 观察 值 xi 与 yi 的 秩 次 之 差 ,n 为 时 间 点 或 样本 的 个 数 。 
(四 ) 互信 息 
线性 与 非 线 性 相关 系数 都 只 能 衡量 基因 间 的 单调 相关 关系 ,而 对 于 那些 在 前 阶段 正 相 


关 ( 负 相关 )\ 后 阶段 负 相关 ( 正 相 关 ), 即 具有 非 单调 性 特点 的 两 个 基因 来 说 则 不 运用 。 对 于 
这 种 相似 关系 ,可 以 用 互信 息 来 度量 : 


y =H (x)-H(x|y) (2-11) 


其 中 H(x ) KIRKIN, H( xly ) Rex ARLE. “4x Aly ES EBORE [6] Ee, AA TT 
方式 表示 如 下 : 


H(xI»))- 20s |y, log p(x |y.) (3-13) 
H(xl)- > rly, )p (x; |y, log p(x ly) (2-13) 
1 J=1 


其 中 , p 表 示 概 率 密度 函数 ,可 以 由 频数 估计 ; n 和 m 分 别 为 离散 化 x 和 y 时 的 离散 化 单位 。 

在 计算 互信 息 时 采用 的 离散 化 方式 会 造成 一 定 的 信息 损失 ,一般 离 散 化 单位 的 估计 由 问 量 x 
和 y 的 长 度 决定 。 

n € log, size( x ) ( 2-14 ) 

m x log, size( y ) ( 2-15) 


二 、 常 用 的 聚 类 方法 》》 


(一 ) k 均 值 聚 类 


KHA RÆ ( k-means clustering ) 是 根据 对 象 的 均值 进行 聚 类 划分 的 分 割 算法 ,适用 于 各 
种 数据 类 型 , 受 初始 化 问题 的 影响 较 小 ,算法 简单 ,运算 速度 快 。 

k 均 值 聚 类 的 具体 分 析 流 程 如 下 : 

1. 初始 化 类 中 心 , 随 机 选择 k 个 初始 质心 ,其 中 k 是 自 定义 参数 ,表示 所 期 望 徐 ( 类 ) 的 
个 数 。 
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2. 计算 每 个 对 象 与 质心 的 距离 ,将 每 个 样本 指派 到 距离 最 近 的 质心 ,指派 到 一 个 质心 的 
对 象 组 成 一 个 族 。 

3. 重新 计算 每 个 徐 的 样本 均值 ,作为 更 新 后 簇 的 质心 。 

4. 重复 2~3 步 ,直到 每 个 复 不 再 发 生变 化 为 止 。 

需要 指出 的 是 ,在 实际 应 用 中 大 部 分 收敛 都 发 生 在 早期 阶段 ,通常 使 用 较 弱 的 终止 条 件 
结束 该 算法 ,因此 ,步骤 4 可 改 为 “直到 仅 有 1% 的 点 改变 复 ” 为止 。 

图 2-20 举 例 说 明了 Kk 均 值 的 聚 类 过 程 ,从 3 个 质心 出 发 ,通过 4 次 指派 和 更 新 , 找 出 最 后 的 
徐 。 其 中 ,质心 用 符号 “+” 表 示 , 属 于 同一 个 簇 的 所 有 点 具有 相同 形状 的 标记 。 
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图 2-20 均值 聚 类 过 程 示 意图 


k 均 值 聚 类 可 以 看 作 是 优化 问题 ,其 优化 目标 是 使 类 内 样本 两 两 则 的 距离 之 和 最 小 , 通 
第 表示 为 : 
[4 2 
"(0)-32, dt. ds (x,.x;) (2-16) 
其 中 ,表示 簇 的 个 数 , C 表 示 和 族 的 结构 , x 和 x 是 属于 同一 个 簇 中 的 样本 , CCI) FICC) ) 
分 别 是 样本 x; 和 x 的 类 别 , ds 表示 两 个 样本 的 欧 氏 距离 。 
/的 值 聚 类 算法 的 结果 依赖 于 初始 质心 的 选取 ,不 同 的 质心 将 可 能 产生 不 同 的 聚 类 结 
构 。 为 了 克服 这 个 问题 ,可 以 采用 多 个 初始 化 方式 , 选 出 具有 最 小 w( C ) 的 聚 类 结果 作为 最 
佳 的 类 结构 。 另 外 , / 芍 值 聚 类 需要 预先 指定 类 别 个 数 ,但 是 由 于 是 无 监督 学 习 方 法 ,在 实际 
应 用 中 一 般 不 知道 真实 的 类 别 个 数 ,一 些 启发 式 的 方法 可 以 帮助 确定 /的 取 值 。 例 如 ,假设 
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有 6 个 研究 对 象 , 则 这 历 6 个 对 象 可 能 的 聚 类 类 别 数 ,计算 各 个 情况 下 的 w( C ), 选 择 w(C ) 下 
降 最 快 时 的 k 值 作为 最 佳 类 别 数 。 

(=) 层次 聚 类 

层次 聚 类 ( hierarchical clustering ) 是 另 一 种 稼 用 的 聚 类 方法 , 浓 稼 使 用 系统 树 图 ( dendrogram ) 
的 方式 表示 ,如 图 2-21 所 示 : 

层次 聚 类 的 方法 可 以 分 为 两 类 ,分 别 为 凝聚 法 和 分 裂 法 。 

tee FE IK agglomerative ) 是 一 种 目下 而 上 的 聚 类 方法 ,从 单个 
点 作为 个 体 族 开始 ,每 一 步 合 并 两 个 最 邻近 的 族 。 

分 裂 法 ( divisive ) 是 一 种 自 上 而 下 的 聚 类 方法 ,从 一 个 包含 所 
^H ARIE OR, BEA TR PR, HEPR FERNE. 

目前 ,凝聚 法 层次 聚 类 技术 使 用 最 为 普遍 ,其 计算 步骤 如 下 : 

1. 计算 邻近 度 和 矩阵 。 

2. 合并 距离 最 近 的 两 个 族 。 

3. 更 新 邻近 度 和 矩阵 ,以 反映 新 的 入 和 原来 的 艇 之 间 的 相似 性 。 

4. SER Fe2~3, HEELE F— PRA IEW 

EUR RAE FIER EET FAP RN BEE. WH pl p p3 mM 
的 类 间 度 量 方法 有 : 最 小 距离 ( single linkage )、 最 大 距离 ( complete 图 2-21 层次 聚 类 的 系统 
linkage )\ 平 均 距离 ( average linkage ) 和 质心 距离 ( centroid linkage), # Hl 
如 图 2-22 所 示 , 最 小 距离 以 两 类 间距 离 最 近 的 两 点 之 间 的 距离 作 
为 两 类 的 距离 ; 最 大 距离 以 两 类 间距 离 最 远 的 两 点 之 间 的 距离 作为 两 类 的 距离 ; 平均 距离 
则 是 所 历 两 类 中 所 有 两 两 点 之 间 的 距离 ,然后 取 平 均值 作为 两 类 的 距离 ; 质心 距离 首先 分 别 
确定 两 类 的 质心 ,然后 以 质心 间 的 距离 作为 两 类 的 距离 。 








最 小 距离 


最 大 距离 


平均 距离 


质心 距离 





图 2-22 类 间 相 似 性 度量 的 方法 
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下 面 以 一 个 例子 说 明 自 下 向 上 的 层次 肾 类 算法 过 程 ,该 实例 采用 欧 氏 距离 衡量 样本 间 
的 相似 性 。 

1. 设 有 五 个 样本 A、B、C、D、E, 每 个 样本 自 成 一 类 ,运用 欧 氏 距离 计算 它们 两 两 之 间 的 
相似 性 ,得 出 邻近 度 矩 阵 ,此 处 为 距离 矩阵 。 





3. 合并 后 类 别 为 三 类 ,调整 距离 矩阵 , 即 分 别 运用 最 小 距离 法 计算 B 样 本 、D 样 本 、E 上 样 
本 与 AC 类 的 距离 ,基于 新 的 距离 矩阵 ,合并 AC 与 D 样 本 。 





4. 继续 调整 矩阵 ,合并 距离 最 近 的 B 样 本 与 E 样 本 。 


5. 合并 ACD 类 与 BE 类 ,最 后 得 到 系统 树 图 。 
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ACD 


(4) (9) (5) (8) (£j eo | | 


三 .应 用 实例 >>> 


Cluster 是 聚 类 分 析 和 常用 的 软件 之 一 ,可 以 在 多 个 平台 上 使 用 ,包括 Windows、Linux/Unix 
和 Mac OS X。Cluster 既 提供 图 形 用 户 界面 ,也 可 以 输入 命令 行进 行 操作 。 下 面 以 Cluster 3.0 
为 例 ,介绍 该 软件 的 使 用 方法 。 

Cluster 3.0 可 以 实现 多 种 聚 类 方法 ,包括 层次 肾 类 、k 均 值 聚 类 、 目 组 织 映射 (self- 
organizing map, SOM ) 聚 类 ,还 可 以 实现 主 成 分 分 析 。 这 里 以 2209 个 在 阿尔 次 海 默 病 和 正和 并 
组 织 中 差异 表达 的 基因 为 属性 ,通过 聚 类 将 基因 表达 谱 以 热 图 ( heat map ) 的 方式 显示 出 来 。 
需要 特别 指出 的 是 , 聚 类 分 析 是 无 监督 学 习 方法 ,通常 是 根据 数据 的 内 部 特点 将 样本 类 别 未 
知 的 数据 进行 归 类 ,这 里 选择 通过 类 别 已 知 的 样本 识别 的 差异 表达 基因 为 例 , 仅 仅 是 为 了 更 
好 地 展示 数据 ,并 介绍 软件 的 使 用 步骤 。 

第 一 步 ,打开 Cluster 3.0 软 件 , 界 面 如 图 2-23 所 示 : 


Rows 
Columns 


| Data set has 


Fiter Data | Adjust Data | Hierarchical | k-Means | SOMs | PCA | 


| [^ &Presentos | 80 


[^ SD (Gene Vector) | 20 
| f" Atleast [~ 1 observations with absiVal) >= | 20 
(Maial-MrVal>= | 20 





图 2-23 Cluster 3.0Jf- 
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第 二 步 , 文 件 的 导入 
点 击 “File” 按 钮 ,选择 “Load data file” 选 项 ,将 前 面 草 市 中 处 理 得 到 的 GSE5281 差 异 表 
达 基 因 及 相应 的 表达 值 导 入 Cluster 3.0 中 ,结果 如 下 (图 2-24 ): 


Eile Help 


一 一 一 — í————————— 


| File loaded luis | 


Job name [GSE5281 MTG DEG 


2209 Rows 
28 Columns 


Data set has 
Fiter Data | Adjust Data | Hierarchical | k-Means | SOMs | PCA | 
和 
[^ % Present >= [ —- 
-F SD (Gene Vector [| | 20 
| PE mo 7 observations with abstVal>= [20 


[^ MaWal-MinVal >= | 2.0 





图 2-24 Cluster 3.0 文 件 导入 


第 三 步 ,数据 的 校正 

由 于 数据 已 经 经 过 预 处 理 , 因 此 这 里 不 再 对 数据 进行 过 滤 及 标准 化 。 为 了 更 好 地 反映 
出 各 样本 中 基因 表达 值 相对 于 基因 平均 表达 值 的 高 低 , 需 要 对 数据 进行 Center 处 理 ,即将 基 
因 表达 值 减 去 其 所 在 行 、 列 的 基因 表达 的 均值 或 中 值 。 上 点击 “Apply 运 行 ”。 运 行 完 毕 后 可 以 
将 运行 结果 保存 。 点 击 “File” 按 钮 ,选择 “Save data file” 选 项 ,选择 文件 路 径 , 可 以 将 校正 
结果 保存 。 具 体操 作 如 图 2-25 所 示 : 

第 四 步 , 聚 类 分 析 

数据 校正 后 ,选择 “Hierarchical” 选项。 该 软件 可 以 实现 双 回 聚 类 “Genes” 是 对 基因 
DEAT RA, “Arrays” 是 对 样本 进行 聚 类 。 这 里 在 此 对 数据 进行 双 回 聚 类 ,两 种 状态 下 都 点 
选 “Cluster ”选项 。 下 一 步 需 要 指定 相似 性 矩阵 ( aimilarity Matrix ) 的 计算 方法 。Cluster 3.0 
提供 八 种 相似 性 和 窍 阵 的 计算 方法 ,包括 皮尔 和 森 相 关系 数 ( pearson correlation coefficient )、 斯 皮 
尔 曼 秩 相 关系 数 ( spearman's rank correlation coefficient ) 欧 式 距 离 等 ,这 里 我 们 选择 默认 值 
“Correlation ( uncentered 刀 , 即 用 皮尔 森 相 关系 数 来 计算 相似 性 矩阵 。 最 后 ,需要 选择 类 间距 
离 的 度量 方法 (图 2-26 )。 该 软件 给 出 四 种 度量 方法 ,分 别 是 质心 距离 .最 小 距离 .最 大 距离 
和 平均 距离 ,在 此 我 们 选择 质心 距离 的 方法 对 数据 进行 聚 类 ,参数 选择 如 图 2-26 所 示 : 
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C:\GEO\GSE5281_MTG_DEG_ba 


Job name |GSE5281_MTG_DEG 


2209 Rows 
28 Columns 


| Data set has 


Fiter Data Adjust Data | Hierarchical | kMeans | SOMs | PCA | 














Job name ÍGSES281 MTG DEG 


2209 Rows 


Data set has 
| 28. Columns 


Fiter Data | Adjust Data Hierarchical | k-Means | SOMs | PCA | 





图 2-26 对 数据 进行 双向 聚 类 
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— HR 


第 五 步 , 用 TreeView 查 看 肾 类 结果 

聚 类 运算 完成 后 会 产生 三 个 文件 
GSES281 MTG DEG.cdt, 其 中 
SK] Ji pj BE 2IS RIDGE FE AS EE S) EE, 
TreeView 可 视 化 聚 类 结果 。 打 开 TreeView 软 件 ， 
肾 类 结果 的 树 形 结构 ,如 图 2-27 所 示 : 





| java TreeView : C:\GEO\GSE5281 IG DEG. cdt 


File Settings Analysis Export Window Help 
Dendrogram | 


View Status 
No status info for 


CO CX 
wr au» 
oo 
mo 
m 
v q 
== 
cn cp 


SM119651 
SM119649 
SM238818 | 
SM238817 | 
SM238813 || 
SM238812 
SM238809 
9M238811 
SM238821 
SM238819 
SM238816 | 
SM238815 |. 
SM238810 || 
SM238825 


图 2-27 TreeView 可 视 化 聚 类 结果 


基因 
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, GSES281. MTG. DEG.gtr, GSE5281_MTG_DEG.atr, 
, GSES281. MTG. DEG.gtr, GSE5281_MTG_DEG.atr4} 别 id 
GSE5281_MTG_DEG.cdtic 5& R Æ fy) 4 R 
& AGSES281. MTG. DEG.cdt X f/f 


可 以 用 
, 即 可 得 到 
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基因 芯片 数据 的 分 类 分 析 是 一 种 有 监督 的 学 习 方 法 , 即 样本 的 类 别 是 已 知 的 ,通常 以 基 
因为 特征 ,通过 已 知 类 别 的 样本 训练 分 类 器 ,评价 分 类 需 的 效能 ,并 对 未 知 类 别 的 样本 进行 
预测 。 此 外 ,为 了 提高 分 类 器 的 分 类 效能 ,通常 并 不 是 用 基因 芯片 上 的 所 有 基因 来 训练 分 拓 
器 ,而 是 先进 行 特征 选择 ,第 选 出 对 分 类 有 重要 作用 的 特征 基因 子 集 ( 参 考 本 章 第 三 方 ), 基 
于 特征 基因 构建 分 类 器 。 目 前 常用 的 分 类 方法 包括 线性 判别 法 、 贝 叶 斯 分 类 法 、 人 工 神 经 网 
络 、k 近 邻 分 类 法 支持 向 量 机 决策 树 和 决策 森林 等 ,本 节 主 要 介绍 k 近 邻 、 决 策 树 、 文 持 问 量 
机 等 分 类 方法 以 及 一 些 常 用 的 分 类 效能 的 评价 指标 。 


一 近邻 分 类 法 》》》 


kir 48 ( k-nearest neighbor ) 分 类 的 基本 思想 : 对 于 给 定 的 一 个 竺 分 类 的 样本 x, 首先 寻找 
与 x 最 接近 的 或 者 最 相似 的 k 个 已 知 类 别 的 训练 样本 ,然后 根据 这 k 个 样本 的 类 别 标签 来 确定 
样本 x 的 类 别 。 

k 近 邻 分 类 的 具体 步骤 为 : 

1. 选取 已 知 类 别 标签 的 训练 样本 集 x。 

2. KEK k 为 奇数 ) 的 初始 值 。K 值 的 选取 没有 统一 的 方法 (需要 根据 具体 问题 选择 迁 
当 的 k 值 )。 常 用 方法 是 先 确定 一 个 初始 值 ,然后 通过 不 断 地 调试 选择 最 优 k 值 。 

3. 在 训练 样本 集中 选 出 与 待 分 类 样本 x 最 近 的 k 个 样本 。 常 用 的 方法 是 计算 已 知 类 别 样 
本 和 待 分 类 样本 间 的 欧式 距离 ,选取 与 样本 x 距离 最 近 的 k 个 样本 。 

4. BLY, Yo, ns yy 表示 与 待 分 类 样本 x 距 离 最 近 的 i 个 样本 ,假设 样本 的 类 别 共 有 两 类 ， 
那么 yi,y,，…,y 中 属于 哪个 类 别 的 样本 多 , 则 将 待 分 类 样本 x 预测 为 哪个 类 别 。 


二 、 决 策 树 》》 


决策 树 ( decision tree ) 是 一 种 多 级 分 类 器 , 它 可 以 将 复杂 的 多 类 别 分 类 问题 转化 为 右 干 
个 简单 的 分 类 问题 。 它 是 一 种 树 状 结构 ,在 每 一 个 非 叶子 节点 选取 一 个 属性 对 样本 进行 分 
88 ,每 一 个 叶子 节点 代表 一 个 类 别 标签 ,如 果 一 个 样本 落 入 一 个 叶子 节点 , 则 表明 该 样本 属 
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于 该 叶子 节点 所 代表 的 类 别 。 

图 2-28 显 示 的 是 一 个 决策 树 分 类 需 。 在 根 节 点 中 一 共有 295 个 乳腺 癌 患 者 样本 ,在 非 
叶子 节点 通过 E2F 和 KIAA0191 这 两 个 基因 表达 水 平 的 高 低 ,将 295 个 乳腺 癌 患 者 分 成 “LOW 
RISK" , “MED RISK", “HIGH RISK” 三 类 ,预测 乳腺 癌 患 者 的 生存 情况 。 


P - 


- Y ax : 
“LOW RISK | 


图 2-28 | 

来 源 于 : Hallett RM, Hassell] JA: E2F1 and KIAA0191 expression 
predicts breast cancer patient survival.BMC Res Notes.201 1 
Mar 31;4 : 95. 


在 决策 树 的 构建 过 程 中 一 般 采 用 贪 禁 算法 , 自 上 而 下 地 对 样本 进行 递归 分 割 。 决 策 树 
的 基本 步骤 如 下 : 

I. 以 代表 所 有 训练 样本 的 单个 节点 开始 ,如 果 样 本 属于 同一 类 别 WU EA S 
点 。 否 则 ,依据 某 种 分 割 规则 选择 最 具 分 类 能 力 的 属性 (如 基因 ) 作 为 决策 树 的 当前 节点 。 

2. 依据 当前 决策 节点 属性 值 (如 基因 表达 水 平 ) 的 不 同 ,将 训练 样本 分 成 若干 子 集 。 

3. 重复 上 面 的 步骤 ,使 用 递归 的 方法 处 理 每 个 样本 子 集 ,直到 符合 终止 条 件 为 止 。 常 用 
的 终止 条 件 包括 所 有 叶子 市 点 的 样本 都 属于 同一 类 别 或 叶子 市 点 中 包含 了 指定 数目 的 样本 
(指定 叶子 节点 应 当 包 含 的 最 少 样本 数 ) 等 。 

利用 基因 必 片 数据 构造 决策 树 的 关键 步骤 在 于 每 一 个 非 叶 子 节 点 选取 哪个 基因 以 及 用 
哪 种 分 割 规则 对 训练 样本 进行 分 类 ,这 需要 通过 分 割 规则 判断 哪个 基因 更 合适 。 分 割 规则 
主要 包括 : 

Gini 指 数 变 化 ( A Gini ): Gini 指 数 是 用 来 评价 方 点 纯度 的 指标 ,将 菜 节 点 NN 的 Gini 指 数 定 
XX: 








k 
Gini{N)=1— 27, (2-17) 


其 中 pi 表示 第 ;类 样本 在 某 节 点 中 的 概率 , 即 某 节 点 中 第 ;类 样本 的 频率 ; /表示 样本 类 别 
的 数量 。Gini 指 数 越 小 表示 节点 越 纯 ,如 果 Gini 指 数 为 0 则 表示 该 节点 中 的 所 有 样本 属于 同 
一 个 类 别 。 
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T NANA LSE AEN FIN, JU Ging CHE (f: 














AGini = Gini(N)- | "-Gini(,) +" Gini(N,)] (2-18) 


其 中 Gini( N, ) 和 Gini( N, ) 表示 子 节 点 NN 和 入 的 Gini 指 数 , n 表 示 廊 点 N 中 样本 的 个 数 ， 
nl1 和 n2 分 别 表示 和 Ni 入 ,中 样本 的 个 数 。 通 常 选择 A Gini 最 大 的 基因 作为 分 割 属性 以 及 对 应 
的 分 割 方式 。 

信息 增益 : 该 指标 是 用 分 割 前 后 箭 值 的 改变 来 评价 节点 纯度 的 变化 。 对 于 茶 万 点 V 的 
[ri ME 9: 


k 
H(N)--5.p, log, p, ( 2-19) 
i-l 


HrBpiizn Bi REA ESET pi rp BUE , RREK REER T ad 
ARTE FANGS Fl AP 9 AN, AN, BU fei SS dO: 


Gain = H(N)- (A (Ne eH(N,) ( 2-20) 


其 中 H( Ni ) RÍICN, ) RRF E AN AINA fei EA, nN TAN PEAR PRL, nj 和 ny 分 
别 表示 NN 入 ;中 样本 的 个 数 。 通 常 选择 信息 增益 最 大 的 基因 作为 分 割 的 属性 以 及 对 应 的 分 
割 方 式 。 

决策 树 分 类 天 对 训练 样本 集 的 准确 率 往 往 能 够 达到 100% ,但 这 会 导致 训练 过 度 ( 对 信 
号 和 噪声 都 适应 ), 而 且 会 让 决策 树 生长 的 过 于 “ 校 柳 叶 友 "。 既 降低 了 决策 树 的 可 理解 性 和 
适用 性 ,又 使 决策 树 本 号 对 训练 样本 集 过 于 依赖 ,一 旦 推广 应 用 到 新 的 数据 时 ,决策 树 的 准 
确 性 将 迅速 下 降 。 因 此 限制 决策 树 的 生长 和 对 决策 树 的 修 藤 是 极其 必要 的 。 常 用 的 策略 包 
括 设 定 决策 树 的 最 大 层 数 和 设 定 每 个 节点 包含 的 最 小 样本 数 等 。 决 策 树 的 修剪 方法 主要 有 
前 剪 校 和 后 剪 校 : 前 剪 枝 是 在 决策 树 的 生成 过 程 中 通过 设 定 装 值 停止 生长 ; 后 前 校 是 在 决 
策 树 长 成 以 后 由 下 而 上 进行 修剪 。 


三 、 支 持 向 量 机 >> 


支持 向 量 机 ( support vector machine, SVM ) 是 由 Vapnik 等 人 在 1995 年 提出 的 一 种 机 需 学 
习 方 法 。 它 以 统计 学 习 理 论 为 基础 ,根据 结构 风险 最 小 化 原则 ( structural risk minimization 
inductive principle, SRM ) 在 选择 的 特征 空间 中 构造 最 优 超 分 面 ( optimal hyperion ), 从 而 使 
未 知 样本 的 分 类 误差 最 小 。 

在 很 多 情况 下 ,训练 样本 集 是 线性 不 可 分 的 ,因此 Vapnik 等 人 提出 了 用 高 维 分 类 面 来 解 
决 这 个 问题 。 通 过 非 线性 变换 将 非 线 性 问题 转化 为 茶 个 高 维 空间 中 的 线性 问题 ,在 这 个 高 
维 空 s 间 中 寻找 最 优 的 分 类 面 。 而 支持 问 量 ( support vector ) 对 定义 最 优 分 类 面 极 其 重要 ， t 
们 是 过 两 类 样本 中 离 分 类 面 最 近 的 点 、 并 且 平 行 于 最 优 分 类 面 的 超 平 面 上 的 训练 样本 。 在 
高 维 空间 中 分 类 函数 只 涉及 训练 样本 之 间 的 内 积 运算 ,而 且 这 种 内 积 运算 可 通过 定义 在 原 
空间 中 的 函数 来 实现 ,甚至 不 需要 知道 变换 的 形式 。 通 过 支持 向 量 机 得 到 的 分 类 孔 数 类 似 


第 二 章 ”基因 芯片 数据 分 析 111 一 


CHAPTER 2 MICROARRAY DATA ANALYSIS 


于 一 个 神经 网 络 ,其 输出 是 一 些 中 间 层 节点 的 线性 组 合 ,而 每 一 个 中 间 层 万 点 对 应 于 输入 样 
本 与 一 个 支持 向 量 的 内 积 。 最 终 的 判别 图 数 只 包含 与 文 持 回 量 的 内 积 和 求 和 ,因此 识别 的 
计算 复杂 度 取决 于 文 持 回 量 的 个 数 。 

支持 问 量 机 通过 选择 的 内 积 函 数 可 实现 线性 和 非 线性 分 类 。 选 择 不 同 内 积 核 另 数 将 导 
致 不 同 的 支持 向 量 机 算法 ,目前 比较 常用 的 内 积 核 限 数 主 要 有 三 类 : 

1. 多 项 式 形式 的 内 积 核 限 数 


K (x, x) » | (x-x,)21] ( 2-21) 


此 时 获得 的 支持 向 量 机 是 一 个 g 阶 多 项 式 分 类 器 。 
2. fep] XE A FAAS PRU 

















p-a] 
K (xx, )= exp a ( 2-22) 


f$ — Rif In] JE PRA Rat SPE BCVA In] S PR OT DB EE DC, SVM 中 每 个 基 
PRAY At ME — SC PE E, ETA Ie t He SEL AaB EH IE A TET HALE HS 
3. SJE PARLIN BARK PR BL 


K (x,x,)=tanh[v(x-x,)+c | (2-23) 


WU Sz FSF [6] CLR] SIUE S A FS Ae Ez T e FZ da, [H Jd Hcr 9925 UE BEJE TI es 
数 都 是 由 算法 目 行 确定 的 。 

与 传统 的 机 帮 学 习 方 法 相 比 , 文 持 癌 量 机 的 主要 优势 有 : 

1. 文 持 向 量 机 能 够 应 用 更 多 的 距离 (相似 性 ) 孔 数 ,其 中 包括 线性 函数 和 非 线 性 也 数 来 
比较 基因 表达 的 测量 值 ,从 而 能 够 更 精确 地 考虑 基因 表达 谱 回 量 之 间 的 关系 。 

2. 分 类 间隔 的 最 大 化 ,使 得 构建 的 分 类 模型 具有 较 好 的 鲁 棒 性 。 

3. 文 持 回 量 机 基于 统计 学 习 理 论 中 结构 风险 最 小 化 原理 和 VC 维 ( Vapnik-Chervonenkis 
dimension ) 理论 ,具有 较 好 的 泛 化 能 力 , 即 通过 有 限 的 训练 样本 信息 ,在 分 类 模型 的 复杂 
和 学 习 能 力 之 间 寻 求 最 佳 的 折 中 ,期望 获 得 最 优 的 推广 能 力 。 


四 、 分 类 器 的 分 类 效能 评价 > > 


在 分 类 的 过 程 中 ,首先 应 用 重 抽 样 ( re-sampling ) 技术 把 数据 集 分 为 训练 集 ( training 
set ) 和 测试 集 ( test set )。 利 用 训练 集中 的 样本 构建 分 类 需 , 测 试 集 用 于 评价 通过 训练 集 构 
建 的 分 类 需 的 分 类 效能 。 


(一 ) 重 抽样 法 


1. nfi ac SCUuESC(C n-fold cross validation) 将 数据 集 随 机 分 成 近似 相等 的 n 份 ,选取 其 中 
的 二 1 份 作 为 训练 集 构 建 分 类 需 , 剩 下 的 一 份 作为 测试 集 , 如 此 循环 2 次 。 通 过 这 种 方法 能 够 
产生 没有 重复 的 训练 集 和 测试 集 。 
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2. 留 一 法 交叉 证 实 ( leave-one-out cross validation, LOOCV ) 每 次 从 数据 集中 随机 抽取 
一 个 样本 作为 测试 集 , 其 余 样本 作为 训练 集 。 

3. Bootstrap aggregating 来 取 有 放 回 抽样 的 方法 ,随机 抽取 不 大 于 原 数 据 集 的 样本 集合 
(该 集合 成 为 原 数 据 集 的 副本 )。 当 随机 抽样 的 数量 和 原 数据 集 一 致 时 ,理论 上 每 一 个 副本 
中 包含 原 数 据 集 63.2% 的 样本 ,剩余 的 为 重复 抽取 的 样本 。 将 副本 作为 训练 集 ,其余 的 样本 
作为 测试 集 。 

4. 无 放 回 的 随机 抽样 ”每 次 随机 抽取 数据 集 的 lm 作为 测试 集 , 其 余 样 本 作为 训练 集 。 


(=) 分 类 效能 指标 


























IP 
1. 敏感 性 ( sensitivity ) TP + FN ( 2-24 ) 
| | TN 
2. 特异 性 ( specificity ) TN + FP ( 2-25) 
IP 
3. 阳性 预测 率 ( positive predictive value, precision ) TP + FP ( 2-26 ) 
TN 
4. 阴性 预测 率 ( negative predictive value ) TN + FN ( 2-27 ) 
l iP TN ! 
5. 均衡 正确 率 ( balanced accuracy ) = FN + TN + 3 (2-28 ) 
TP +TN 
6. 正确 率 ( accuracy ) TP TN + FP FN ( 2-29 ) 


其 中 TP( true positive ) 表示 真 阳性 , 即 样本 类 别 为 阳性 ,分 类 器 正确 地 将 其 判断 为 阳性 
的 样本 数 ; TN( true negative ) 表示 真 阴性 , 即 样本 类 别 为 阴性 ,分 类 器 正确 地 将 其 判断 为 阴 
性 的 样本 数 ; FP( false positive ) 表示 假 阳 性 , 即 样本 类 别 为 阴性 ,分 类 器 却 错 误 地 将 其 判断 
为 阳性 的 样本 数 ; FN( false negative ) 表示 假 阴 性 , 即 样本 类 别 为 阳性 ,分 类 器 却 错误 地 将 其 
判断 为 阴性 的 样本 数 。 

总 之 ,对 基因 心 厂 数据 进行 分 类 分 析 有 助 于 与 疾病 的 精确 诊断 和 预后 分 析 。 但 是 复杂 
疾病 的 发 生 往往 不 是 由 于 单个 基因 的 改变 造成 的 ,而 是 遗传 因素 和 环境 因素 等 共同 作用 产 
生 的 结果 ; 不 同 疾病 涉及 的 基因 不 同 , 同 种 疾病 在 分 子 层面 也 存在 着 较 大 的 异 质 性 ,因此 , 针 
对 疾病 相关 的 芯片 数据 进行 分 类 分 析 时 ,如 何 选 取 合 适 的 基因 作为 特征 构建 稳定 的 分 类 器 
以 达到 临床 诊断 的 要 求 仍 然 是 个 极 大 的 挑战 。 
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Section 6 Microarray Databases and Softwares 


一 、 基 因 表 达 数 据 库 ( gene expression omnibus, GEO ) > > 


近年 来 高 通 量 检测 基因 表达 的 技术 越 来 越 成 熟 \ 应 用 也 越 来 越 广 沁 , 例 如 ,基因 芯片 ， 
基因 表达 系列 分 析 ( serial analysis of gene expression, SAGE ) 和 新 一 代 测 序 ( next generation 
sequences, NGS ) 等 技术 都 可 以 实现 对 数 以 万 计 的 基因 转录 本 的 检测 。GEO 是 由 美国 国立 生 
物 技术 信息 中 心 (national center for biotechnology information, NCBI ) 开发 和 维护 的 公共 数据 
库 , 它 存储 基因 芯片 数据 .新 一 代 测 序数 据 以 及 其 他 形式 的 高 通 量 功 能 基因 组 数据 ,并 将 其 
发 布 供 研究 者 自由 使 用 。 目 前 , CEO 储 存 了 约 20 000 项 研究 得 到 的 涉及 500 000 个 样本 、1300 
个 物种 .330 亿 单个 基因 的 表达 检测 数据 ,这 些 数据 是 由 世界 各 地 的 8000 多 个 实验 室 提供 的 。 
基于 web 工 具 , 用 户 可 以 对 CE0O 人 存储 的 大 量 数据 进行 浏览 .查询 和 可 视 化 。 通 过 四 种 编号 
GPL、GDS、GSE 和 GSM 可 以 获得 完整 的 平台 数据 集 、 系 列 和 样本 的 信息 。 例 如 ,在 Query 部 
分 常用 GSE 号 输入 到 “GEO accession” HP ,可 以 了 解 必 片 数 据 的 详细 信息 (图 2-29 )。 


an 
SS NCBI CK/D 


Gene fapreision Omnian 


GEO Publications FA MIAME Email GEO 
NCBI» GEO Login 











Gene Expression Omnibus: a public functional genomics data repository supporting MIAME- 
ompliant data submissions. Array- and sequence-based data are accepted. Tools are provided to 
hal users iste and download experiments and curated gene expression profiles. 


More infi 








icd ld zin Overview | FAQ | Fin 
| GEO BLAST | Submission guide 
Linking & citing 


GEO navigation (xx E —— M Site contents 
| r 一 一 etesee — ] | dad 
| Oh 
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| | er minia d E | 
[s 





à E ee : it Journal citations 
! DataSets = Platforms 


Data disclaimer 
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| | 一 一 一 一 - 一 一 一 一 : | 一 一 一 一 | Construct a Query 

| WB sowed 1 | | | 1 Programmatic acces 
| L| GEO accessions] Samples — | BI EE didis: 
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图 2-29 GEO accession & 14 FF i 
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CHAPTER 2 MICROARRAY DATA ANALYSIS 
GEO 根 据 平台 、 数 据 集 、 系 列 和 样本 四 种 形式 组 织 数据 ,使 用 数据 的 研究 人 员 可 以 获取 
以 下 四 方面 相应 的 信息 。 


平台 ( platform, GPLxxx ): 平台 信息 是 由 微 阵列 的 简要 描述 和 用 来 确定 微 阵列 模板 的 数 
据 表 构 成 。 最 基本 的 平台 信息 是 探 针 列表 ,它们 规定 了 哪些 基因 可 以 在 该 芯片 平台 上 被 检 
测 出 来 ; 平台 编号 以 GPL 为 起 始 。 

数据 集 ( dataset, GDSxxx ): 一 个 数据 集中 的 样本 来 自 相 同 的 必 片 平台 ,并 且 这 些 样本 的 
检测 值 是 都 是 以 同 种 方式 处 理 ( 如 ,背景 校正 和 标准 化 等 ) 之 后 得 到 的 。 数 据 集 是 由 生物 学 
上 和 统计 学 上 能 相互 比较 的 样本 所 组 成 的 ,这 些 样 本 可 能 来 自 不 同 的 数据 提供 者 , 它 构成 了 
GE0 特 有 的 数据 显示 和 数据 分 析 的 基础 ; 数据 集 编号 以 CDS 为 起 始 。 

系列 (series，GSExxx ): 系列 是 由 数据 提供 者 提交 给 CEO 的 一 次 实验 的 基因 芯片 数据 ， 
这 些 数据 具有 明确 的 研究 目的 ,是 用 户 在 使 用 GEO 时 经 常 采 用 的 一 种 数据 查询 和 下 载 方式 ; 
系列 编号 以 GSE 为 起 始 。 

样本 ( sample, GSMxxx ): 在 基因 芯片 实验 中 ,一 个 样本 中 所 有 基因 的 表达 水 平 通 稼 由 一 
张 芯 片 来 检测 ,样本 信息 由 所 检测 的 生物 材料 的 描述 .所 遵循 的 实验 协议 和 包含 检测 丰 度 值 
的 数据 表 构 成 ; 样本 编号 以 CSM 为 起 始 。 


二 、 基 因 芯 片 显著 性 分 析 (significance analysis of microarray, 
SAM ) 》》 


SAM 是 由 美国 Standford 大 学 开发 的 一 个 免费 软件 ,是 目前 使 用 最 为 广泛 的 差异 表达 
基因 筛选 方法 之 一 。SAM 软件 以 插件 的 形式 在 Excel 中 运行 ,使 用 简单 ,很 容易 被 生物 医 
学 工作 者 所 掌握 。SAM 考 虑 到 基因 蕊 片 数 据 噪 声 大 小 与 表达 丰 刘 相关 的 特点 ,对 :检验 进 
行 修正 ,为 每 个 基因 计算 一 个 统计 量 忆 ,其 表示 该 基因 表达 水 平均 值 的 变化 (比如 ,在 疾病 
正常 两 类 之 间 的 变化 ) 与 标准 差 的 比值 。 此 外 ,该 方法 使 用 随机 扰动 数据 集 的 方法 估计 
随机 情况 下 统计 量 D 的 分 布 ,通过 选择 delta 值 ,确定 FDR 的 水 平 ,从 而 识别 显著 差异 表达 
的 基因 。 此 外 , SAM 软 件 还 提供 了 K 近 邻 方法 补缺 失 值 的 功能 。 应 用 实例 请 参见 本 章 第 
=F 


SAMAJ LJ http: //www-stat.stanford.edu/-tibs/SAM/index.html F 4X. 


=., Cluster and TreeView > > 


Cluster 和 TreeView 是 对 基因 芯片 数据 进行 聚 类 和 了 可视化 的 工具 。Cluster 提 供 了 多 种 聚 
类 算法 ,同时 还 能 够 在 聚 类 之 前 对 数据 进行 过 滤 和 标准 化 等 处 理 ; 而 TreeView 则 能 够 以 热 图 
和 系统 树 图 的 方式 可 视 化 肾 类 的 结果 。 这 两 个 软件 通常 联合 应 用 ,将 Cluster 的 聚 类 结果 用 
TreeView 进 行 显示 。 

Cluster 可 以 从 http: //bonsai.hgc.jp/~mdehoon/software/cluster/software.html P #%; http: //www.treeview. 
net/tv/download.asp 提 Bt Y & TEWindows, Macintosh, Linux 和 Unix 在 内 的 各 种 版 本 的 TreeView 
软件 。 
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Wü, BRB-ArrayTools 》》 


BRB-ArrayToolsz&— 3X 4 £r 的 基因 芯片 数据 分 析 软 件 。 BRB-ArrayTools 能 够 针对 多 种 
平台 的 基因 表达 谱 数 据 进行 几乎 所 有 的 常规 数据 分 析 , 包 括 预 处 理 、 标 准 化 、 聚 类 分 类 、 功 
能 注释 、 可视化 等 。BRB-ArrayTools 也 是 以 Excel 加 载 宏 的 形式 呈现 ,所 以 操作 简单 、 使 用 方 
面 。 上 面 提 到 的 SAM Cluster 和 TreeView 均 已 整合 到 ArrayTools 软 件 中 。 

ArrayTools 可 VJ http: //linus.nci.nih.gov/BRB-ArrayTools.html F 4X. 


五 、R 语 言 和 Bioconductor > > 


R 语 言 是 一 种 计算 机 程序 设计 语言 ,也 是 一 个 开放 式 的 软件 开发 平台 。R 语 言 具有 强大 
的 数学 统计 分 析 和 科学 数据 可 视 化 功能 ,能 提供 各 种 数据 处 理 、 统 计 分 析 及 图 形 显 示 工 具 。 
R 语 言 在 生物 信息 领域 具有 重要 的 应 用 价值 ,利用 R 语 言 可 以 进行 基因 芯片 数据 的 差异 表达 
分 析 、 聚 类 分 析 和 分 类 分 析 等 。 软 件 研 究 人 员 可 以 在 R 语 言 这 个 开放 平台 上 不 断 扩 充 其 功 
能 ,开发 出 面 问 特定 应 用 的 软件 。 

Bioconductor 是 一 个 基于 R 语 言 的 \ 面 加 基因 组 信息 分 析 的 应 用 软件 集合 。Bioconductor 
的 应 用 功能 是 以 包 的 集成 形式 呈现 给 用 户 , 它 提供 的 软件 包 中 包括 各 种 基因 组 数据 分 析 和 
注释 工具 。 同 时 , Bioconduetor 还 提供 了 许多 专门 的 基因 必 片 分 析 软 件 包 ,可 以 实现 数据 的 预 
处 理 .各 种 分 析 ` 注 释 及 可 视 化 等 功能 。Affy 是 分 析 Affymetrix 宅 聚 核 苷 酸 必 片 的 软件 包 , 可 用 
于 数据 的 读 取 、 过 滤 、 标 准 化 等 。Marray 是 用 于 双 通 道 ( cDNA ) 微 阵列 数据 的 预 处 理 软件 包 。 
Limma 包 通过 使 用 线性 模型 来 分 析 设计 实验 和 评估 差异 表达 ,可 应 用 于 所 有 类 型 的 芯片 数据 。 


7x. Matlab: Bioinformatics Toolbox 》》 


Matlab 是 美国 MathWorks 公 司 出 品 的 商业 数学 软件 ,是 用 于 算法 开发 数据 可 视 化 、 数 据 

分 析 以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 。Matlab 的 基本 数据 单位 是 矩阵 ,而 

基因 表达 谱 也 是 矩阵 形式 的 数据 ,因此 ,通过 Matlab 编 程 能 够 比较 容易 地 进行 基因 芯片 的 数 

据 分 析 。 其 中 , Bioinformatics Toolbox 是 基于 MATLAB 环 境 开发 的 基因 组 和 入 日 质 组 分 析 工 

具 箱 。 该 工具 箱 功 能 强大 ,可 进行 数据 库 访 问 序列 比 对 .基因 心 片 数据 分 析 .可 视 化 以 及 功 
能 注释 等 。 此 外 ,在 MATLAB 环 境 中 还 可 调用 其 他 的 生物 信息 学 软件 。 

(A db tK 陈 晓 文 杨 &) 
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Section 1 Introduction 





随 着 后 基因 组 ( post-genomics ) 时 代 的 来 临 , 基 因 组 学 的 研究 重心 开始 从 阐明 所 有 遗传 
言 息 转移 到 在 整体 分 子 水 平 对 功能 进行 研究 。 这 种 转变 的 一 个 重要 标志 是 产生 了 功能 基因 
组 学 (functional genomics )。 功 能 基因 组 学 利用 结构 基因 组 所 提供 的 信息 和 产物 ,发 展 和 应 
用 新 的 实验 手段 ,通过 在 基因 组 或 系统 水 平 上 全 面 分 析 基 因 的 功能 ,使 得 生物 学 研究 从 对 单 
一 基因 或 重 白质 的 研究 转 癌 多 个 基因 或 借 日 质 同时 进行 系统 的 人 研究。 功能 基因 组 学 的 主要 
任务 之 一 是 进行 基因 组 功能 注释 ( genome annotation ), 了 解 基因 的 功能 ,认识 基因 与 疾病 的 
关系 ,掌握 基因 的 产物 及 其 在 生命 活动 中 的 作用 等 。 在 使 用 全 局 方法 进行 猎 究 时 ,人 研究 人 员 
往往 同时 检测 大 量 基因 的 表达 水 平 ,从 而 在 整体 水 平 上 获得 关于 基因 功能 及 基因 之 间 相 互 
作用 的 信息 ,如 何 应 用 生物 信息 学 方法 ,高 通 量 地 注释 这 些 基 因 的 生物 学 功能 是 一 个 重要 的 
挑战 。 快 速 有 将 的 基因 注释 对 进一步 识别 基因 ,识别 基因 转录 调控 信息 ,人 研 究 基因 的 表达 调 
控 机 制 ,研究 基因 在 生物 体 代谢 途径 中 的 地 位 ,分 析 基 因 、 基 因 产 物 之 间 的 相互 作用 关系 , 绘 
制 基因 调控 网 络 图 ,预测 和 发 现 蛋 白质 功能 ,揭示 生命 的 起 源 和 进化 等 具有 重要 的 和 意义。 

本 章 主 要 介绍 当前 稼 用 的 基因 注释 数据 库 和 基因 功能 预测 方法 ,以 及 在 此 基础 上 发 展 
起 来 的 基因 集 功 能 富 集 分 析 、 基 因 功 能 比较 等 方法 和 常用 工具 。 
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Section 2 Gene Annotation Database 


一 、GO( gene ontology ) 数据 库 >> 


EG 2 AE AS Ag ARS ACR SEA EDR T KEERA , I] SEF 
基因 基因 产物 以 及 基因 功能 知识 越 来 越 丰 宇 ,这 些 知识 被 生物 学 家 共享 ,如何 利 用 这 些 先 
验 知 识 ,使 之 成 为 计算 机 可 识别 并 操作 的 资源 ,这 需要 合理 组 织 和 系统 的 方法 。 因 此 提供 一 
个 结构 化 的 标准 的 生物 学 模型 ,以 便 计算 机 程序 进行 分 析 , 成 为 从 整体 水 平 系统 研究 基因 及 
其 产物 的 一 项 基本 需求 。 本 节 主 要 介绍 当前 应 用 较为 广泛 的 基因 及 其 产物 注释 数据 库 : GO. 

CO 目标 是 建立 一 个 可 以 适用 于 各 种 物种 的 ,对 基因 和 和 蛋白 质 功 能 进行 限定 和 描述 的 ， 
动态 控制 的 词 表 , 即 使 关于 某 个 基因 或 蛋白 的 功能 与 作用 的 知识 未 知 或 在 不 断 积 累 变化 中 ， 
我 们 仍然 能 有 一 定 的 规则 去 描述 更 新 它 。GO 中 有 约束 的 功能 词汇 (terms ) 称 为 一 个 概念 ， 
它 表 示 一 个 功能 类 ,使 用 它 来 摘 述 众多 的 基因 的 功能 ,并 严格 地 定义 功能 类 之 间 的 关系 。 功 
能 类 之 间 的 天 系 分 为 is-a, 和 part-of 两 类 ， is-a 表 示 子 功能 是 父 功能 的 一 个 实例 ， part-of 表 示 
于 功能 是 父 功能 的 一 个 部 分 。GO 以 有 回 无 环 图 方式 表示 功能 类 之 间 的 关系 (图 3-1 ), 它 的 
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图 3-1 GO 中 生物 学 过 程 的 DNA 代 谢 部 分 功能 类 示意 图 
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一 个 子 结 扩 可 以 有 多 个 父 结 点 ,但 没有 循环 关系 , 父 磊 结 点 包含 所 有 子 结 点 的 含义 , 即 从 父 
结 扩 到 子 结 点 ,含义 是 逐 层 深入 的 关系 。 
(一 ) GO 数据 库 构 成 


GO 将 基因 功能 划分 为 细胞 组 分 ( cellular component )、 分 子 功 能 ( molecular function )、 生 
物 学 过 程 ( biological process ) 3 个 分 支 ( 表 3-1 )。 因 此 ,一 个 基因 或 蛋白 可 从 三 个 层面 得 到 注 
释 , 可 能 是 同一 个 物体 存在 的 多 种 性 质 。 如 细胞 色素 c, 在 分 子 功能 上 体现 为 电子 传递 活性 ， 
在 生物 过 程 中 与 氧化 磷酸 化 和 细胞 凋 亡 有 关 ,在 细胞 中 存在 于 线粒体 质 中 和 线粒体 内 膜 上 。 
随 看 生命 科学 人 研究 的 逐步 深入 , G0 注释 数据 库 正在 不 断 积累 和 更 新 。 目 前 GO 已 经 成 为 生 
物 信息 领域 中 一 个 重要 的 方法 和 工具 ,并 正在 逐步 改变 着 我 们 对 各 种 生物 学 数据 的 组 织 
理解 方式 , 它 的 存在 已 经 大 大 加 快 了 生物 数据 的 整合 和 利用 。 

项 目 最 初 是 由 1988 年 对 三 个 模式 生物 数据 库 的 整合 开始 : 果 晶 数据 库 (FlyBase ) 酵母 
基因 组 数据 库 ( saccharomyces genome database ) 和 小 鼠 基 因 组 数据 库 MCD ( the mouse genome 
database ), 随后 相继 收录 了 更 多 数据 , GO 不 断 发 展 扩 大 ,现在 已 包含 数 十 个 动物 ,植物 、 微 生 
物 的 数据 库 。GO 术 语 在 多 个 合作 数据 库 中 的 统一 使 用 ,促进 了 各 类 数据 库 对 基因 描述 的 一 
致 性 。 目 前 已 经 成 为 应 用 最 广泛 的 基因 注释 体系 之 一 。 


表 3-1 GO 数据 库 收录 的 基因 组 数据 列表 


机 构 简称 ”收录 的 基因 组 数据 ， 网 站 
BBOP Se http: //www.berkeleybop.org 
BHF-UCL 心血 管 基因 http: //www.cardiovasculargeneontology.com 
dictyBase fh PRI d e Po A VR http: //dictybase.org 
EcoliWiki KARA A http: //ecoliwiki.net 
FlyBase EU http: //flybase.bio.indiana.edu 
GeneDB AUR WERE A PEE Jt n, RACE RR JR http: //www.genedb.org 

布 氏 锥 虫 
GOA UniProtfilInterPro] f£ http: //www.ebi.ac.uk/GOA 
Gramene 农作物 基因 数据 库 http: //www.gramene.org 
MGD and GXD  /^ZBR http: //www.informatics.jax.org 
RGD Vi FR BR http: //rgd.mew.edu 
Reactome 生物 过 程 知 识 库 http: ni 1 A 
SGD 牙 殖 酵母 ARB http: //www.yeastgenome.org 
TAIR TARSZT http: //www.arabidopsis.org 
IGS 基因 组 研究 的 工具 和 数据 http: //www.igs.umaryland.edu 
JCVI 在 干 种 细 戎 基因 组 数据 库 http: //www.jevi.org 
WormBase 线虫 http: //www.wormbase.org 


ZFIN De 4 ff, http: //zfin.org 
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. (二 ) GO 数据 库 的 在 线 注释 


GO 中 的 结 点 如 何 与 对 应 的 基因 产物 相 联 系 呢 ?这 是 由 参与 合作 的 数据 库 来 完成 的 , 它 
们 使 用 GO 的 定义 方法 ,对 它们 所 包含 的 基因 产物 进行 注释 ,并 且 提 供 支 持 这 种 注释 的 参考 
和 证 据 。 每 个 基因 或 基因 产物 都 会 有 一 个 列表 , 列 出 与 之 相关 的 GO 结 点 。 现 在 对 于 基因 或 
者 结 点 的 注释 可 以 使 用 多 种 不 同 的 工具 软件 进行 查询 ,它们 大 多 数 G0 浏 览 融 都 是 web 模 式 
的 ,允许 你 直观 地 看 到 结 点 和 其 相关 信息 ,如 定义 、 同 义 词 和 数据 库 参 考 等 。 有 些 G0 浏 览 器 
如 AlliGCO 和 QuickGo ,可 以 看 到 每 个 结 点 的 注释 。 

我 们 这 里 使 用 AmiGO 作 为 实例 说 明 GO 数 据 库 的 在 线 注释 。 在 G0 数据 库 中 ,每 条 记录 都 
有 一 个 数据 标识 号 GO: XXXXXX 和 对 应 的 结 点 。 因 此 检索 时 需要 知道 待 查 基因 的 名 字 或 结 
点 的 数字 标识 号 ,将 它们 直接 输入 检索 框 即 可 。 如 果 检 索 的 基因 或 重 白质 存在 别名 ,可 在 检 
RHE FZ) “gene or proteins”, 并 在 检索 框 中 输入 别名 检索 ;“exact match” 表 示 是 否 完全 匹配 ， 
可 供 选 择 。 

这 里 以 检索 神经 源 性 分 化 因子 6( NEUROD6 ) 为 例 。 在 检索 框 中 输入 “NEUROD6” 并 
ZJi “gene and proteins” 和 “exact match” ,运行 后 所 得 基因 产物 。 检 索 得 到 的 四 个 记录 分 别 
是 不 同 物种 中 的 神经 源 性 分 化 因子 6, 点 击 物 种 为 人 类 的 “NEUROD6” 记 录 , 即 为 该 基因 产 
物 的 基本 信息 ,包括 类 型 物种、 别名 来 源 和 序列 ; 图 3-2 显 示 了 该 基因 产物 的 结 点 关联 (term 
associations ) 图 ,图 中 记录 名 称 “Term” 是 GO 记录 的 名 字 ,“Ontology” 是 该 基因 产物 的 特性 ， 
如 要 查看 其 分 子 功能 ,可 点 击 其 中 的 一 条 记录 “nervous system development”( 图 3-3 )。 
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nervous system development 


. Term information & Term lineage # External references # 5317 gene product associations * 


| Term Information TOM 


Accession GO:0007399 
| 


| Synonyms related: pan-neural process 
| Definition 








The process whose specific outcome is the progression of nervous tissue over time, from its formation to its mature 
state. [source: GOC:dgh] 
Comment None 


Subset None 


Community There have been 0 comments for this term. If you would like to view or participate in the community annotation, please 


| continue to the GONUTS page. 











© all : al [372469 gene products] 
| © B GO:0008150 : biological, process [274193 gene products] 
E) E Go:0032502 : developmental process [27802 gene products] 
© HB GO:0048856 : anatomical structure development [20054 gene products] 
E B GO:0048731 : system development [15068 gene products] 
日 B GO:0007399 : nervous system development [5317 gene products] 
Ej B GO:0007275 : multicellular organismal development [23925 gene products] 
| © OG GO:0048731 : system development [15068 gene products] 
| (2 8 GO:0007399 : nervous system development [5317 gene products] 
| 











E) BH GO:0032501 : multicellular organismal process [32735 gene products] 
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E 8 GO:0007399 : nervous system development [5317 gene products] 
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图 3-3 AmiGO 基 因 功 能 描述 示例 


图 3-3 上 部 先 对 神经 源 性 分 化 因子 6 的 相关 信息 做 简单 描述 ,中 间 结 点 系谱 (Term 
Lineage ) 旦 阶梯 状 分 布 , 记 录 了 GO 数据 库 中 全 部 分 子 功能 所 处 的 位 置 和 关系 。 下方“External 
Reference” 提 供 了 与 外 部 相关 数据 的 链接 。 点 击 右 上 方 的 可 视 化 视图 ( Graphical View ) 就 
更 清晰 地 显示 了 分 子 功能 记录 之 间 构 成 的 复杂 网 状 结构 , 既 有 上 下 素 属 关系 ,也 存在 平行 
系 (图 3-4 )。 

对 于 未 知 基因 名 的 序列 ,可 以 用 序列 直接 检索 GO 数据 库 。 点 击 AmiGO 首 页 上 方 
的 “BLAST” ,在 检索 框 中 输入 氨基 酸 或 核酸 序列 ,网 页 能 自动 识别 并 相应 地 做 BLASTP 或 
BLASTX 和 数据 库 中 的 序列 比 对 , 比 对 到 序列 相似 的 基因 ,同上 面 的 做 法 一 样 , 可 以 查询 到 功 
能 注释 信息 。 


(=) GO 数据 库 本 地 化 及 批量 注释 


GO 的 所 有 数据 都 是 免费 获得 的 。GO 数 据 中 包含 了 结 点 间 的 结构 ( ontologies ) 和 基因 或 
基因 产物 的 注释 ( annotations ) 数 据 ,还 包括 蛋白 序列 比 对 的 数据 (图 3-5 )。 其 中 结构 数据 包 
含 结 点 和 结 点 之 间 的 连接 关系 ,注释 数据 包含 由 数据 库 成 员 提交 的 基因 或 基因 产物 与 结 点 
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GO:0007275 


multicellular 


(60:0048856 
anatomical structure 


organismal 
8 development 


development 





b 





图 3-4  AmiGO & MHZ $ AHAA 


Build name Contents Updated 


termdb ontologies, definitions and mappings to other dbs daily 
assocdb termdb (above); all manual gene product annotations; electronic annotations (TEA) weekly 


from all databases other than UniProtKB mm 


seqdb assocdb (above), plus protein sequences for most of the gene products weekly 
full GO database termdb (above), plus manual and electronically generated (IEA) annotations monthly 


图 3-5 可 供 下 载 的 GO 数据 


间 关 联 。 结 构 和 注释 两 种 数据 分 别 储存 在 单独 的 数据 库 中 ,这 使 得 利用 结构 对 注释 的 查询 
更 加 有 效 。 

GO 的 网 站 上 提供 多 种 数据 形式 的 下 载 : MySQL, OBO XML, OWL, RDF XML, SQL. 
XML 和 MySQL 文 件 是 被 储存 于 独立 的 GO 数据 库 中 (图 3-6 )。 下 载 数 据 到 本 地 后 ,如 果 需 要 
找到 与 某 一 个 CO 术语 相关 的 基因 或 基因 产物 ,可 以 找到 一 个 相应 表格 ,搜寻 到 这 种 注解 的 
编号 ,并 且 可 以 链接 到 与 之 对 应 的 位 于 不 同 数据 库 的 基因 相关 文件 。 

当 用 户 和 希望 对 大 量 的 基因 进行 基因 注释 时 , GO 的 网 站 上 提供 了 许多 推荐 的 工具 ,可 以 
基于 GO 做 批量 分 析 。 我 们 以 CENETOOLS 为 例 , 它 可 以 提供 基因 和 结 点 的 批量 查询 ,用 以 方 
便 用 户 对 CO 注释 的 解释 , 它 还 提供 了 注释 结 点 树 状 结构 的 可 视 化 ,并 能 自由 编辑 (图 3-7 )。 
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— Evidence 
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View 
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UNCTION PROCESS Tex (bi) Format 2 
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Limit : Include oustom 
Auto Wm Yes v. o 
& 3 cellular component (G0:0005575) 


|- 3 cell (60:0005623) 

|- cel part (60:0044464) 

I- B1 envelope (G0:0031975) 
|- 3 organelle (60:0043226) 
Lg 2 organelle part (60:0044422) 


图 3-7 GENETOOLS 工 具 批 量 查找 示例 


二 、KEGG 数 据 库 》》 


生物 体 细 胞 的 生物 学 功能 是 许多 分 子 相互 作用 的 结果 ,不 能 仅仅 归功 于 单个 基因 或 单 
个 分 子 。KEGG( Kyoto encyclopedia of genes and genomes, 京都 基因 与 基因 组 百科 全 书 ) 就 是 
将 基因 组 中 的 一 系列 基因 用 一 个 细胞 内 的 分 子 相互 作用 的 网 络 连 接 起 来 的 过 程 ,如 一 个 通 
路 或 是 一 个 复合 物 , 通 过 它们 来 展现 更 高 一 级 的 生物 学 功能 的 数据 库 。KEGG 将 基因 组 信息 
和 高 一 级 的 功能 信息 有 机 地 结合 起 来 ,通过 对 细胞 内 已 知 生物 学 过 程 的 计算 机 化 处 理 和 将 
现 有 的 基因 功能 解释 标准 化 ,整合 了 基因 组 学 .生物 化 学 以 及 系统 功能 组 学 的 信息 ,有 助 于 
研究 者 把 基因 及 表达 信息 作为 一 个 整体 网 络 进行 研究 。 


(一 ) KEGG 数 据 库 的 主要 组 成 


KECG 中 的 pathway 是 根据 相关 知识 手绘 的 ,这 里 的 手绘 的 意思 可 能 是 指 人 工 以 特定 的 
语言 格式 来 确定 通路 各 组 件 的 联系 ; 基因 组 信息 主要 是 从 NCBI 等 数据 库 中 得 到 的 ,除了 有 
完整 的 基因 序列 外 ,还 有 没完 成 的 草图 。KEGG 目 前 共 包 含 了 19 个 子 数据 库 , 它 们 被 分 类 成 
系统 信息 .基因 组 信息 和 化 学 信息 三 个 类 别 。Q 电 基因 组 信息 存储 在 GENES 数 据 库 里 ,包括 全 
部 完整 的 基因 组 序列 和 部 分 测序 的 基因 组 序列 ,并 伴 有 实时 更 新 的 基因 相关 功能 的 注释 ,更 
高 级 的 功能 信息 则 存储 在 PATHWAY 数 据 库 里 ,包括 图 解 的 细胞 生化 过 程 如 代谢 、 膜 转运 、 
言 号 传递 细胞 周期 和 同系 保守 的 子 通 路 等 信息 ; 一 些 直系 同 源 的 基因 数据 作为 PATHWAY 
数据 库 的 补充 ,形成 了 PATHWAY 数 据 库 中 一 些 保守 的 子 通路 ( pathway motifs ), 这 些 子 通路 
通常 有 一 些 在 染色 体位 置 上 邻近 的 基因 编码 ,这 对 于 基因 功能 的 预测 十 分 重要 ; (QDKEGG 中 
化 学 信息 的 6 个 数据 库 被 称 为 KEGG LIGAND 数 据 库 , 包 含 化 学 物质 、 酶 分 子 、 酶 化 反应 等 信 
息 。KEGG BRITE 数 据 库 是 一 个 包含 多 个 生物 学 对 象 的 基于 功能 进行 等 级 划分 的 本 体 论 数 
据 库 , 它 包括 分 子 .细胞 ,物种 .疾病 .药物 以 及 它们 之 间 的 关系 ,该 数据 库 将 基因 与 外 界 环 境 
影响 联系 起 来 。 例 如 ,可 以 通过 BRITE 数 据 库 分 析 药 物 和 部 点 之 间 的 关系 。@) 一 些小 的 通 
路 模块 被 存储 在 MODULE 数 据 库 中 ,该 数据 库 还 存储 了 其 他 的 一 些 相 关 功 能 的 模块 以 及 化 
合 物 信息 ; (OKEGG DRUG 数 据 库 存储 了 目前 在 日 本 所 有 非处方药 和 美国 的 大 部 分 处 方药 
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im; GKEGG DISEASE 是 一 个 存储 疾病 基因 .通路 .药物 以 及 疾病 诊断 标记 等 信息 的 新 型 数 
据 库 。 


(二 ) KEGG 数 据 库 在 线 注释 


KEGG 通过 “ 专 有 名词 ”KO( KEGG orthology ) 对 基因 进行 注释 ,每 个 KO 标识 代表 一 个 
来 自 不 同 物种 的 直系 同 源 基 因 组 。 它 是 蛋白质 ( 酶 ) 的 一 个 分 类 体系 ,序列 高 度 相似 ,并 且 在 
同一 条 通路 上 有 相似 功能 的 蛋白 质 被 归 为 一 组 ,然后 打上 KO( 或 K ) 标 签 。 在 KEGG 通 路 中 ， 
每 个 KO 标识 代表 着 通路 图 中 一 个 网 络 结 点 (在 通路 图 中 以 一 个 方 盒子 表示 )。 在 KEGG 对 每 
个 对 象 的 功能 及 其 他 等 级 划分 中 , KO 标识 则 代表 着 底层 的 叶子 结 点 。 

KO 标识 是 基因 组 通过 KEGG 通 路 以 及 KEGG 等 级 划分 与 生物 学 系统 关联 的 基础 。 对 于 
KEGG 中 的 每 个 物种 来 说 ,物种 特异 性 通路 以 及 功能 等 级 的 划分 是 通过 计算 的 方法 自动 实现 
的 ,在 这 一 过 程 中 KO 标识 是 必 不 可 少 的 。 有 了 这 些 物 种 特异 性 通路 以 及 功能 等 级 划分 ,由 
基因 芯片 表达 谱 等 高 通 量 方法 得 到 的 基因 便 可 以 注释 到 相应 的 位 置 ,以 此 来 系统 的 分 析 该 
基因 在 细胞 或 组 织 中 的 功能 。 除 了 对 基因 或 重 白 的 功能 等 级 划分 之 外 , KEGG BRITE 数 据 
库 还 包含 了 化 合 物 (C、D、G、R 标 识 ) 以 及 其 作用 关系 的 等 级 划分 。 

KO 标识 还 可 以 将 基因 的 基因 组 信息 以 及 转录 组 信息 与 通路 总 化 合 物 分 子 的 化 学 结构 
联系 起 来 ,因此 , KO 分 类 系统 还 可 以 应 用 化 学 信息 注释 上 。 这 一 过 程 实现 的 基本 原理 是 每 
个 KO 下 的 基因 所 标识 的 酶 是 不 同 的 ,其 对 应 化 学 底 物 也 不 同 , 男 外 ,还 有 对 生物 合成 通路 信 
息 的 不 断 积累 .不断 更 新 作为 数据 支撑 的 基础 。 例 如 : 糖 类 的 生物 合成 是 通过 一 系列 的 生化 
反应 来 完成 的 ,这 些 反应 都 是 由 糖 基 转移 酶 催化 。 在 KEGG PATHWAY 中 ,与 糖 类 生物 合成 
相关 的 通路 图 中 各 种 糖 类 相关 的 化 合 物 都 是 通过 一 条 边 与 糖 基 转 移 酶 的 一 组 同 源 基 因 ( KO 
group ) 直接 相连 ,一 旦 在 通路 中 确定 了 基因 的 注释 位 置 , 则 与 其 相关 的 糖 类 化 合 物 也 被 找 
到 。 应 用 相似 的 方法 可 以 对 基因 芯片 表达 谱 数 据 进行 糖 类 结构 以 及 功能 的 预测 ,这 一 方法 
已 被 广泛 使 用 。 除 了 糖 类 化 合 物 之 外 ,在 KEGG 数 据 库 中 还 存储 了 很 多 其 他 化 合 物 (多 聚 不 
饱和 脂肪 酸 AEC AD RERE ) 的 结构 和 功能 信息 ,通过 以 上 方法 可 以 对 基因 进行 
化 学 信息 的 注释 。 

下 面 以 人 类 亚 甲 基 四 氨 叶 酸 还 原 酶 ( methylenetetrahydrofolate reductase, MTHFR ) 为 
fil: 首先 进入 KEGG 首 页 ,在 首页 顶端 的 输入 框 中 输入 人 类 亚 甲 基 四 氧 叶酸 还 原 酶 名 称 
“MTHFR”( 图 3-8 )。 

点 击 搜索 按钮 “GO” 进入 查询 结果 页 面 (图 3-9 ), 该 页 面 会 列 出 针对 基因 “MTHFR” 在 
KEGG 数 据 库 中 的 搜索 结果 , 除 人 类 外 ,包含 “MTHFR” 基因 的 物种 条 目 也 会 被 列 出 。 

其 中 排 在 第 一 位 的 是 人 类 基因 “MTHFR” 的 相关 信息 ,点 击 该 条 目 进 入 到 详细 信息 页 
面 (图 3-10 )。 

该 页 面 以 表格 的 形式 列 出 了 该 基因 有 关 的 详细 信息 ,包括 基因 编号 ,基因 的 详细 定义 ， 
所 编码 酶 的 编号 ,基因 所 在 通路 ,以 及 序列 的 编码 信息 。 同 时 ,在 页 面 的 右 侧 还 提供 了 该 基 
因 在 其 他 分 子 生物 学 数据 库 的 链接 ,如 OMIM、NCBI、CenBank 等 。 

通过 点 击 相 应 的 链接 ,我 们 可 以 进入 该 基因 相应 信息 的 页 面 。 在 pathway 这 一 栏 中 列 出 
了 该 基因 所 在 的 生物 学 通路 ,点 击 编号 为 hsa00670 One carbon pool by folate 通 路 ,进入 到 该 通 
路 的 相应 页 面 ( 图 3-11 )。 
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| (Go) beleac) 





» Japanese 


KEGG: Kyoto Encyclopedia of Genes and Genomes 


Plea to Support KEGG 

Since 1995 the KEGG database has been developed in my laboratories 
(Kanehisa Laboratories) at Kyoto University and the University of Tokyo 
thanks to funding from the Japanese Ministry of Education and its agencies. 
more ... 


KEGG mapping 
KEGG Identifiers 
Pathway maps 
Brite hierarchies 
KGML 


KEGG Software 
KEGG Mapper 


© Main entry point to the KEGG web service 
KEGG2 KEGG Table of Contents 
@ Data-oriented entry points 
KEGG PATHWAY KEGG pathway maps [Pathway list] 


Update notes Help 


KEGG Atlas KEGG BRITE BRITE functional hierarchies [Brite list] 
KegTools KEGG MODULE KEGG modules [Module list] 
KEGG API KEGG DISEASE Human diseases [Disease classification] 
KEGG FTP KEGG DRUG Drugs [ATC drug classification] 
Subscription KEGG ORTHOLOGY Ortholog groups [KO system] 
KEGG GENOME Genomes [KEGG organisms] 
KEGG GENES Genes and proteins Release history 
GenomeNet KEGG LIGAND Chemical information [Compound classification] 
DBGET/LinkDB KEGG MEDICUS Health-related information for wider society 
© Organism-specific entry points 
Feedback 


KEGG Organisms 
Enter org code(s), — . (Go) hsa hsa eco 


图 3-8 KEGG MAR 





GenomeNet 





or [MTHFR 


Search KEGG —— 


Database: KEGG - Search term: MTHFR 
KEGG GENES 


hsai4524 
MTHFR; methylenetetrahydrofolate reductase (NAD(P)H) (EC:1.5.1.20); K00297 methylenetetrahydrofolate 
reductase (NADPH) [EC:1.5.1.20] 

ptr469800 
MTHFR; methylenetetrahydrofolate reductase (NAD(P)H); K00297 methylenetetrahydrofolate reductase 
(NADPH) [EC:1.5.1.20] 

pon:100454623 
MTHFR; methylenetetrahydrofolate reductase (NAD(P)H); K00297 methylenetetrahydrofolate reductase 
(NADPH) [EC:1.5.1.20] 

mmu:17769 
Mthfr, A/323986, 5,10-methylenetetrahydrofolate reductase (EC:1.5.1.20); K00297 
methylenetetrahydrofolate reductase (NADPH) [EC:1.5.1.20] 

mo:352657 
Mthfr, methylenetetrahydrofolate reductase (NAD(P)H); K00297 methylenetetrahydrofolate reductase 
(NADPH) [EC:1.5.1.20] 

* * > display all 


DBGET integrated database retrieval system 








图 3-9 MTHFR 基 因 的 KEGG 通 路 查询 结果 


该 编号 为 hsa00670 的 通路 页 面 以 简单 的 几何 图 形 显示 出 相关 生物 过 程 。 图 中 红色 的 方 
框 即 为 基因 “MTHFR” 所 编码 的 酶 , 方 框 里 面 的 1.5.1.20 是 EC 编号 ; 小 圆圈 代表 代谢 物 ,鼠标 
放 上 会 出 现 C x x x x x ，C 代 表 compound ,五 位 数 编号 x x x x x 是 这 种 化 合 物 在 KEGG 中 
的 编号 ,大 的 圆 方块 ,表示 另 一 个 代谢 图 ,绿色 的 方 框 表示 这 个 物种 特有 的 基因 或 酶 。 以 此 
就 可 以 通过 该 酶 所 在 位 置 以 及 通路 的 拓扑 结构 来 综合 分 析 基 因 。 此 外 ,可 以 通过 页 面 项 部 
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Kice Homo sapiens (human): 4524 


Entry é| 4524 H. sapiens 
Coi m ——— — —— ———————À 









All links 













Definition|methylenetetrahydrofolate reductase (NAD(P)H) (EC:1.5.1.20) Pe PATHUAY (2) 
‘ Disease (9) 
Orthology |x00297 methylenetetrahydrofolate reductase (NADPH) [EC:1.5.1.20] KEGG DISEASE (3) 





hsa00570 One carbon pool by folate 
hsa01100 Metabolic pathways 


Disease H00183  Homocystinuria 
H00262 Spina bifida 
H00516 Isolated orofacial clefts 


Metabolism; Metabolism of Cofactors and Vitamins; One carbon pool by 
folate [PATH:hsa00670] 


OMIM (6) 

Chemical reaction (3) 
KEGG ENZYME (1) 
KEGG pe (2) 

Genome (1 
KEGG CENONE (1) 







Gene (21) 

KEGG ORTHOLOGY (1) 

NCBI-Gene (1) 

NCBI-GI (15) 

UniGene (1) 

HGNC (1) 

HPRD (1) 

ENSEMBL-HSÀ (1) 

Protein sequence (10) 
UniProt (3) 
RefSeq(pep) (1) 
IPI (6) 

DNA sequence (33) 
RefSeq(nuc) (1) 










Other DBs |NCBI-GI: 87240000 


NCBI-GeneID: 4524 


GenBank (16) 
OMIM: 607093 EMBL (16) 
HGNC: 7436 Protein domain (1) 
HPRD: 06158 Pfam (1) 


Àll databases (80) 
Ensembl: 


UniProt: 


ENSG00000177000 
P42898 Q59GJ6 Q8IU67 






MVNEARGNSSLNPCLEGSASSGSESSKDSSRCSTPGLDPERHERLREKMRRRLESGDKWF 
SLEFFPPRTAEGAVNLISRFDRMAAGGPLYIDVTWHPAGDPGSDKETSSMMIASTAVNYC 
GLETILHMTCCRQRLEEITGHLHKAKQLGLKNIMALRGDPIGDQWEEEEGGFNYAVDLVK 


图 3-10 ASABE “MTHFR” 的 详细 信息 


Kise One carbon pool by folate - Homo sapiens (human) 


[ Pathway menu | Organism menu | Pathway entry | Download KGML | User data mapping ] 


| Homo sapiens (human) ! m (Go) 100% Im 





ONE CARBON POOL BY FOLATE 


151.5 


5,1 


THF 
15115. 
|1.5.120 


^ 5-Methyl-THF O 
5-Formimino- THF 





图 3-11 A One carbon pool by folate 通 路 


的 下 拉 列 表 框 来 选择 该 通路 在 其 他 物种 中 的 信息 ,也 可 以 通过 该 列表 框 的 选择 来 查看 相关 
的 基因 酶 、 反 应、 化 合 物 等 相关 通路 信息 。 

点 击 通 路 图 上 方 的 pathway entry, 在 出 现 的 页 面 中 点 击 pathway map 按 钮 链接 Ortholog 
table ,就 进入 了 Ortholog table 如 下 的 页 面 (图 3-12 ): 





tholog table(.o00570) 
Eukaryotes jw] Pe 上 Ax. 
Organism (fols Gos) 
hsap i719 — 

= o- 
or 2 mm 


imcc P 711268 


immu P pared 


imo P 243 124 





Ce 


da P 609048. 





amit P nidi 


bta P 508809 


ssc Ei mE 
ecb P 1100073256 





Indo P 1000 12354 
lbaaP — 


gga P 427317 
mgp P {100540725 


一 一 一 一 一 -一 一 一 - ee 


KoguP 11002298 12 " 
lacs P 100559043 
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Eo aa . | K13402 | : 
1393 K01938 | K00288 
(foi) [] I S MO (MTHFD) [113] 


25902 4522 


463073 1452965 





100437887100173036 


Füssen? [07099 


270585. D 





361472 b«ano 


troens aoss 





100477350) poo 


534296 534382 





100154722414382 





BOOS St: 1 pone 154 


100032106/100027684 


421633 (423508 








100542162100542376 


100224764100218066  - 





100553949 
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k01491 l K13403 
(folD) [] (MrHFD2)[57] 


10797 
441024 


461253 





1004421 sd 


702907 


17768 
665563 
680308 
313410 
305248 _ 
483107 
482197 


100463985 


100475974 _ 


517539 
536269 


100525706 


100053990 
100056425  — 


100024210 


426126 
770327 





100538988 _ 


100224318 | 


100566586 


100553649 . — 


AAR&A1 


图 3-12 A One carbon pool by folate 通 路 的 Ortholog table 


在 这 个 表 中 , 行 与 物种 对 应 


,3 个 字母 都 是 相应 物 中 的 英文 单词 缩写 ,比如 has 表 示 Homo 


sapiens,，mcc 表 示 Macaca mulatta; 列 就 表示 相应 的 Ortholog 分 类 。 如 上 图 同一 物种 后 有 多 个 
条 目 , 则 表示 在 该 物种 中 存在 多 个 和 绰 白 ,它们 分 别 由 以 上 数字 代表 的 基因 所 编码 ,空白 则 表 


未 在 该 物种 中 不 存在 这 种 酶 。 


点 击 K00287 则 这 一 KO 分 类 信息 及 成 员 列 表 都 可 显示 出 来 ; 点 击 has 则 链接 到 物种 ( 人 
类 ) 基因 组 去 了 ; 点 击 P, 则 显示 相应 的 代谢 通路 。 下 面 我 们 点 击 1719 ,如 图 3-13 所 示 : 


Kice Homo sapiens (human): 1719 


SS as 
EM COE a 
Definition [dinpdrofolate reductase (WIS. SSS 
Orthology |K0028? dihydrofolate reductase ORE 


| hsa00670 One carbon pool by folate 
hsa00790 Folate biosynthesis 
hsefll100 Metabolic pathways 


Methotrexate: D00142 D02115 























Trimetrexate: 006238 D06239 


Metabolism; Metabolism of Cofactors and Vitamins; Folate biosynthesis 
(PATH: hsa00790) 

etabolism; Metabolism of Cofactors and Vitamins; One carbon pool by 
folate [PATH: h=al0670) 


Sa sep 
m. o 08 58 G0 loo j| 


Pfam: DHFR 
PROSITE: om 


Ensembl: EN3600000228716 
UniProt: P00374 B0YJ776 









图 3-13 KEGG? HA 4X 17193k E] 


如 上 图 ,就 是 我 们 常见 的 一 


All Links 


Ontology (4) 


Proteins dinh ain (2 
Pfam (1) 


PROSITE 


) 


SITE (1) 
All databases (104) 


页 面 ,1719 是 KEGG 中 的 基因 ID , H.sapiens 表 示 物 种 ,然后 


是 基因 的 名 称 , 表 达 的 酶 ， Pen Ta 下 面 还 有 结构 .序列 信 
息 等 。 所 以 从 Ortholog table 中 可 以 很 容易 知道 一 张 代谢 通路 上 有 哪些 KO 分 类 ( 酶 类 ), 并 且 
这 些 酶 类 的 成 员 在 各 物种 中 分 配 存 在 的 情况 以 及 特定 的 名 称 。 


ht 
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(=) KEGG 数 据 库 本 地 化 及 应 用 接口 

KEGG 提 供 了 ftp 服 务 , 可 以 下 载 所 有 的 数据 ,方便 数据 库 的 本 地 化 。 此 外 , KEGG 还 提供 
应 用 程序 接口 ( application programming interface, API ), 利用 KEGG API, 用 户 可 以 方便 的 建立 


自己 的 客户 端 ,从 而 获得 最 新 的 数据 。KEGG API 支 持 多 种 编程 语言 ,如 Perl、 Java 等 ,对 操作 
系统 和 对 象 模块 的 选择 也 没有 倾向 性 , 表 3-2 列 出 了 和 常用 的 KEGG APIKX 


表 3-2 常用 的 KEGG APIK% 


list_pathways 返回 指定 物种 的 所 有 通路 
get_genes_by_enzyme 返回 指定 物种 中 编码 指定 酶 的 所 有 基因 
get_ enzymes _by_gene 返回 指定 物种 中 指定 基因 编码 的 所 有 酶 
get_enzymes_by_compound 返回 所 有 物种 中 催化 指定 化 合 物 的 酶 
get_enzymes_by_reaction 返回 所 有 物种 中 催化 指定 反应 的 酶 
get_ko_by_gene 返回 指定 基因 对 应 的 所 有 ko 代码 
get_genes_by_pathway 返回 指定 通路 中 的 所 有 基因 
get_compounds_by_pathway 返回 指定 通路 中 的 所 有 化 合 物 
get_reactions_by_pathway 返回 指定 通路 中 的 所 有 反应 


三 .其 他 常见 生物 学 通路 数据 库 >> 


Biocarta 数据 库 ( http: //www.biocarta.com/ ) Fe dy ue A AE ped . n] A FA SE SE d H. 
VERA EE TS APT ERNER EF WOT PRA FA RE STS A 是 “ 开 
源 ” 数据 库 的 典型 代表 法 GB ETE DCE E Vf JS oe OE YC PE , HEEL AS OE SR ER fri 4. 
迅速 发 展 壮大 起 来 。 它 还 提供 了 目录 并 且 总 结 了 12 万 多 个 多 物种 的 基因 信息 的 重要 资源 。 
发 现 了 过 去 的 已 有 的 通路 的 同时 也 发 现 了 一 些 新 的 通路 。 其 中 , Biocarta 4 H BUTS mya El 
最 广 的 信号 通路 数据 库 , 包 含 了 大 量 的 通路 细 市 知识 ,方便 进行 单个 分 子 的 查询 ,但 是 单个 
通路 规模 较 小 ,不 提供 批量 下 载 。 人 类 生物 学 反应 及 信和 号 通路 数据 库 Reactome( http: //www. 
reactome.org ) 是 一 个 汇集 了 由 专家 撰写 ,经 同行 评阅 的 有 关 人 体内 各 项 反应 及 生物 学 路 径 
的 文章 的 数据 库 ,该 数据 库 相 当 于 一 个 有 效 的 数据 资源 以 及 电子 图 书 。 该 数据 库 为 人 们 提 
供 了 一 个 全 新 的 从 整体 水 平 上 对 生物 学 途径 进行 研究 的 工具 ,同时 , 它 也 是 一 个 改 展 的 搜索 
及 数据 挖掘 工具 ,可 以 简化 与 生物 学 途径 相关 的 数据 搜索 与 研究 。 此 外 ,对 用 户 提供 的 高 通 
量 数据 组 进行 分 析 , 也 变 得 更 为 简单 。 目 前 ,由 于 直系 同 源 预 测 方法 的 改进 ,反应 组 学 数据 
库 也 开始 收录 其 他 模式 生物 的 数据 了 ,现在 通过 与 其 他 数据 库 合 作 和 人 工 注 释 方 式 ,已 经 收 
录 了 包括 拟 南 芥 ( Arabidopsis ) 水稻 ( Oryza sativa ) 果 蝇 ( Drosophila ) 及 原 鸡 ( Gallus gallus ) 
等 22 种 模式 物种 的 反应 组 学 数据 。 反 应 组 学 的 数据 库 内 容 和 相关 软件 都 是 开源 共享 ,免费 
使 用 的 。Reactome 作 为 经 典 的 通路 数据 库 建 立时 间 较 早 ,图 示 清 楚 , 下 载 方便 ,但 与 Biocarta 
相 比 包含 的 通路 数据 不 够 全 面 , STKE 数 据 库 由 通路 专家 进行 收集 整理 ,包括 通用 的 细胞 信 
号 数据 和 部 分 组 织 细胞 中 特殊 的 信号 过 程 ,具有 内 容 较 详细 但 通路 数目 较 少 的 特点 。AfCS 
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数据 库 以 信号 分 子 为 基础 ,提供 其 参与 的 相互 作用 及 信号 通路 图 ,包含 了 AfCS 项 目 最 新 的 
研究 成 果 。 而 Pathway Interaction Database 专门 收集 人 的 信号 通路 ， 包含 了 大 量 文献 挖 
信号 通路 分 析 。 此 外 , AMAZE 数据 库 采 用 专门 的 数据 模型 ,可 将 单个 生物 分 子 和 相互 作用 
整合 进 细胞 过 程 。 其 他 常用 的 信号 和 代谢 通路 数据 库 详 见 表 3-3。 


表 3-3 ”其 他 常用 的 信号 和 代谢 通路 数据 库 





BRE  、 ae DE 
PID http: //pid.nci.nih.gov 文献 控 掘 的 人 信和 号 通路 数据 库 
STKE http: //stke.sciencemag.org 参与 信号 转 导 的 分 子 及 其 相互 作用 关系 的 信息 
AfCS http: //www.signaling-gateway.org 参与 信号 通路 的 蛋白 质 相 互 作用 和 信号 通路 图 
AMAZE http: //www.amaze.ulb.ac.be 对 细胞 过 程 的 相关 信息 进行 .注释 和 分 析 
BIND http: //www.bind.ca 提供 参与 通路 的 分 子 的 序列 和 相互 作用 信息 
DOQCS http: //doqcs.cbs.res.in 细胞 信号 通路 的 量化 数据 库 
SigPath http: //sigpath.org 提供 细胞 信号 通路 的 量化 信息 
MetaCye http: //biocyc.org/metacyc/ 微生物 为 主 的 多 个 物种 的 酶 和 代谢 途径 数据 库 
EcoCye http: //biocyc.org/ecocyc/ 大 肠 埃 希 菌 (K-12 ) SEPA ZA SEDI PURI CS 


UM-BBD http: //www.labmed.umn.edu/umbbd/ 微生物 生物 催化 反应 和 生物 降解 通路 
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一 、 基 因 功 能 预测 的 目的 和 意义 >> 


目前 ,大 量 参 与 重要 生命 活动 的 基因 功能 仍然 未 知 。 因 此 ,生物 信息 学 的 重要 任务 之 
一 是 在 全 基因 组 范围 内 对 基因 功能 进行 预测 。 传 统 的 基因 功能 预测 方法 主要 依赖 于 序列 的 
同 源 性 ,而 近来 已 经 发 展 了 很 多 基于 GO 数据 库 或 KEGG 数 据 库 的 方法 ,利用 高 通 量 的 基因 表 


达 和 和 集 日 奈 互 作 数 据 进 行 功能 预测 ,其 中 一 些 新 开发 的 方法 试图 i 合 多 种 数据 类 型 ,通过 构 


建功 能 相关 网 络 的 方式 预测 基因 功能 (图 3-14 )。GO 数 据 库 包含 了 基因 参与 的 生物 过 程 , 所 
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处 的 细胞 位 置 及 具有 的 分 子 功能 三 方面 功能 信息 ,通过 GO 中 的 注释 信息 ,可 以 对 基因 的 功 
能 进行 预测 。KECG 是 系统 分 析 基 因 功 能 、 联 系 基 因 组 信息 和 功能 信息 的 知识 库 , KEGG 的 
PATHWAY 数据 库 提供 了 基因 编码 的 生物 学 大 分 子 酶 或 者 蛋白 质 在 生命 体内 相互 联系 相互 
影响 的 情况 。 同 一 生物 学 通路 内 的 基因 大 多 参与 了 此 代谢 通路 所 揭示 的 生命 过 程 。 根 据 功 
能 相似 的 基因 可 能 导致 相似 的 表 型 这 一 依据 ,可 以 通过 网 络 拓 扑 性 质 对 基因 的 功能 进行 预 
测 , 并 利用 GO 和 KEGG 功 能 富 集 分 析 方 法 进行 进一步 的 预测 。 当 前 基于 GO 或 KEGG 的 基因 
功能 预测 策略 一 般 为 : 首先 ,从 总 体 上 宏观 地 概括 抽取 信息 ,如 不 同样 本 间 、 不 同时 间 点 间 全 
部 差异 基因 ; 其 次 ,通过 GO 或 KEGG 分 析 , 即 从 GO 分 类 结果 找到 实验 涉及 的 显著 功能 类 别 或 
将 差异 基因 映射 到 通路 中 ,根据 基因 在 通路 中 的 位 置 及 表达 水 平 的 变化 算出 受 影响 显著 的 
通路 ,从 而 预测 未 知 的 基因 功能 。 


二 、 基 因 功 能 预测 的 基本 原理 >> 


基于 GO 或 KEGG 的 基因 功能 预测 通常 需要 定义 基因 和 集 ,基因 集 的 定义 基于 统一 的 先 验 
生物 学 知识 ,如 已 发 表 的 有 关 基 因 共 表达 、 生 物 通 路 等 。 一 个 基因 集 是 基因 发 片 上 一 组 具有 
相同 生物 学 功能 或 位 于 同一 生物 通道 的 基因 ,产生 基因 集 的 数据 包括 基因 表达 谱 数 据 和 重 
白质 互 作 数 据 。 


(一 ) 基于 GO 的 基因 功能 预测 


1. 对 差异 表达 基因 进行 功能 预测 

GO 应 用 的 一 个 重要 方面 就 是 用 来 指导 基于 基因 表达 谱 数 据 的 基因 功能 预测 。 在 基因 
芯片 的 数据 分 析 中 ,研究 者 可 以 找 出 哪些 差异 表达 基因 属于 一 个 共同 的 CO 功能 分 文 , 并 用 
统计 学 方法 检验 结果 是 否 具 有 统计 学 意义 ,从 而 得 出 差异 表达 基因 主要 参与 了 哪些 生物 
功能 。 

目前 ,大 量 的 基因 功能 预测 方法 利用 GO 作为 功能 分 类 的 来 源 或 结果 证 实 。 在 已 知 的 大 
多 数 相关 研究 中 ,人 研究 者 首先 将 感 兴趣 基因 注释 到 GO 上 ,然后 第 选 出 显 闭 性 祝 集 的 G0 结 扣 
作为 功能 标签 ,考察 这 组 基因 是 否 共同 注释 到 同一 个 功能 结 点 上 ,或 注释 的 结 点 是 同一 个 结 
点 的 直接 子 结 点 ,并 认为 这 样 的 基因 具有 相似 的 功能 ,这 项 工作 实现 了 对 未 知 基因 功能 预 
测 ,是 CO 结构 信息 的 进一步 发 掘 。 这 是 直接 利用 CO 注释 的 方法 进行 基因 功能 预测 。 

目前 许多 已 知 功能 的 基因 只 注释 到 了 描述 很 不 具体 的 功能 类 , 称 之 为 已 知 部 分 功能 的 
和 蛋白质。 显然 寻找 这 些 基 因 的 精细 功能 对 于 了 解 这 些 基因 和 提供 必要 的 数据 来 学 习 其 他 基 
因 的 功能 都 具有 重要 意义 。 为 了 寻找 已 知 部 分 功能 的 基因 更 精细 的 功能 ,目前 有 一 种 深 层 
预测 算法 : 该 算法 利用 蛋白 质 互 作 数 据 ,将 基因 从 其 已 注释 到 的 功能 类 向 下 预测 一 层 或 多 
层 , 发 现 其 更 精细 的 功能 。 由 于 已 知 部 分 功能 的 基因 参与 一 个 子 功能 类 的 先 验 概率 增 大 , 预 
测 的 可 靠 性 可 能 会 提高 ,因此 使 用 注释 到 同一 个 功能 类 中 的 基因 可 以 过 滤 部 分 假 阳 性 互 作 。 

具体 做 法 为 : 首先 , 选 定 一 个 CO 结 点 作为 深层 预测 的 目标 结 点 ,定义 它 的 任何 一 个 祖先 
结 点 为 预测 空间 ,按照 CO 注释 的 提示 ,将 注释 到 预测 空间 而 没有 注释 到 它 的 任何 一 个 于 续 
点 的 基因 定义 为 已 知 部 分 功能 的 基因 , 即 预测 对 象 ; 然后 ,通过 连接 注释 在 预测 空间 中 互 作 
的 基因 构建 一 个 功能 特异 的 子 网 ,孤立 的 基因 被 排除 在 外 ,在 互 作 子 网 中 ,注释 到 目标 结 点 
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的 借 日 质 被 当 作 阳性 样本 ,而 除 预测 对 象 外 的 其 他 蛋白 质 被 当 作 阴性 样本 。 

通常 一 个 恒 日 质 被 赋予 与 其 直接 相互 作用 的 邻居 和 蛋白质 中 出 现 频率 最 高 的 几 个 功能 。 
尽管 一 个 和 集 日 质 可 以 执行 多 个 功能 ,这 里 选择 只 为 蛋白 质 赋予 一 个 可 信和 度 最 高 的 子 功能 。 
因为 目标 结 点 中 阳性 样本 要 和 预测 空间 中 所 有 其 他 子 结 点 的 阴性 样本 竞争 ,因此 修改 大 数 
法 对 于 预测 一 个 阳性 结果 来 说 是 保守 的 。 可 以 采用 留 一 法 来 评价 分 类 器 的 预测 效果 。 每 一 
个 训练 样本 都 要 被 轮流 留 出 来 作为 测试 样本 。 计 算 真 阳性 ( TP )、 真 阴性 (TN )\ 假 阳性 ( FP ) 
和 假 阴 性 ( FN ), 再 计算 精确 度 、 覆 盖 率 和 F 指 标 。 基 于 和 蛋白质 互 作 数 据 和 深层 预测 方法 ,以 
高 于 90% 的 精确 率 , 为 几 千 个 已 知 部 分 功能 的 酵母 和 人 类 和 蛋白 质 预测 了 精细 的 功能 。 预 测 
的 精细 功能 对 于 指导 随后 的 实验 和 提供 必要 的 功能 知识 来 学 习 其 他 和 蛋白质 的 功能 都 具有 重 
要 的 意义 。 

2. 蛋白 质 互 作 网 络 用 于 基因 功能 预测 

传统 的 基因 功能 注释 及 预测 方法 是 根据 基因 相关 的 一 些 统 计 特征 集 , 利 用 机 器 学 习 
方法 来 得 出 功能 注释 的 规则 用 于 预测 。 基 因 功 能 实现 的 复杂 性 以 及 功能 定义 的 模糊 性 ， 
使 得 传统 的 利用 特征 预测 的 方法 很 难 准 确 地 进行 预测 。 而 蛋白 质 相 互 作 用 网 络 能 够 利 
用 香 日 质 之 间 的 相关 性 ,对 未 知 功能 的 基因 进行 注释 。 目 前 ,利用 相互 作用 网 络 进行 功 
能 注释 主要 有 两 种 方法 ， 即 直 接 注 释 方法 (direct annotation schemes ) 和 基于 模块 的 方法 
(module assisted schemes )。 

(1) 直接 注释 方法 : 直接 注释 方法 根据 网 络 中 某 个 蛋白 质 的 连接 情况 直接 推测 该 蛋白 
质 的 功能 。 这 类 方法 基于 的 假设 是 : 在 蛋白 质 相 互 作 用 网 络 中 ,距离 相近 的 两 个 蛋白 质 更 加 
倾 回 于 拥有 相似 的 功能 。 而 通过 两 蛋白 质 在 网 络 中 的 距离 来 计算 并 判断 这 两 个 蛋白 质 功能 
相似 性 有 许多 的 方法 : 山 邻 居 结 点 计算 法 ( neighborhood counting ): 这 种 方法 是 最 简便 也 是 
相对 较 早 出 现 的 方法 。 它 根据 网 络 中 某 个 和 蛋白质 直接 相关 的 邻居 已 知 重 日 质 的 功能 来 确定 
该 未 知 重 白 质 的 功能 注释 。 这 种 方法 假设 某 未知 重 昌 质 的 邻居 中 有 超过 n 个 和 集 日 质 具 有 一 
样 的 功能 ,就 将 这 种 功能 赋予 该 重 日 质 。 这 种 方法 虽然 测 单 并 且 有 时 候 非常 有 效 ,然而 它 在 
功能 注释 过 程 中 不 能 为 这 种 关联 性 提供 非常 有 显著 意义 的 解释 ,并 且 它 也 没有 考虑 到 网 络 
的 全 局 拓扑 结构 。 避 图 论 方法 ( graph theoretic method ): 图 论 方法 不 同 于 邻居 结 点 计算 法 ， 
它 可 以 考虑 网 络 的 全 局 拓扑 结构 ,基本 思路 是 : 对 一 个 未 知 功 能 和 蛋白 质 赋予 某 种 功能 ,要 使 
得 注释 为 相同 功能 的 蛋白 质 (未 注释 或 者 已 注释 ) 的 连接 数目 最 多 。(3) 马 尔 可 夫 随 机 场 方 
法 ( Markov random field method ): 注释 方法 中 有 许多 基于 概率 的 方法 ,它们 均 基 于 马 可 夫 假 
iz: 蛋白 质 的 功能 独立 于 与 其 直接 相 邻 的 邻居 之 外 的 所 有 和 蛋 日 质 。 根 据 这 个 假设 ,人 们 也 提 
出 了 马 可 夫 随机 场 模 型 用 于 重 日 质 功 能 的 注释 。 | 

( 2) 基于 模块 的 方法 : 基于 模块 的 方法 首先 将 网 络 相关 的 蛋白 质 组 成 不 同 的 模块 ,然后 
根据 该 模块 中 成 员 的 功能 来 得 到 整个 模块 所 共有 的 可 能 的 功能 ,从 而 用 来 预测 其 中 未 知 成 
员 的 功能 。 一 个 功能 模块 指 其 中 的 和 蛋白质 所 处 的 细胞 位 置 以 及 相互 作用 使 得 它们 可 以 实现 
一 个 特定 的 功能 。 而 基于 功能 模块 的 重 晶 质 功能 注释 方法 也 不 再 单独 预测 单个 重 日 质 的 功 
能 ,而 是 试图 发 现 模块 中 所 有 重 白 质 的 共同 内 在 的 功能 。 一 旦 模块 确定 ,那么 可 以 通过 一 些 
简单 的 方法 来 预测 其 功能 ,比如 该 模块 中 如 果 大 部 分 的 重 日 质 都 具有 某 种 功能 ,那么 这 种 功 
能 就 将 赋予 该 模块 。 对 和 蛋白质 相互 作用 网 络 进行 模块 划分 的 常用 方法 有 以 下 几 种 : 山 分 级 
聚 类 方法 ( hierarchical clustering based methods ): 聚 类 就 是 将 相似 功能 的 蛋白 质 归 为 同一 类 
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(模块 )。 分 级 聚 类 的 关键 问题 是 如 何 评判 重 日 质 对 之 间 的 相似 性 ,最 简单 的 方法 是 以 两 个 
蛋 日 质 之 间 的 距离 作为 基准 。 但 是 在 分 级 聚 类 中 ,大 量 重 日 质 对 之 间 的 距离 都 是 相同 的 , 通 
稼 认为 同一 个 模块 中 的 重 曰 质 成 员 更 加 可 能 拥有 最 短 的 路 径 距 离谱 (path distance profiles ). 
根据 这 个 假设 ,所 有 短路 径 的 重 日 质 对 聚 成 一 类 。 这 个 方法 实施 比较 复 灯 ,很 难 在 整个 基因 
组 水 平 上 的 网 络 上 进行 分 析 , 但 在 一 些 子 网 络 中 它 已 经 得 到 很 好 的 应 用 ,比如 对 酿酒 酵母 的 
核 蛋 白 的 相互 作用 网 络 分 析 。@) 图 形 聚 类 方法 (graph clustering methods ): 大 量 的 图 形 聚 类 
方法 也 用 于 图 形 化 描述 二 元 相互 作用 。 早 期 的 图 形 聚 类 方法 用 于 相互 作用 网 络 模块 的 构建 
主要 有 两 类 ,一 类 是 基于 SPC 聚 类 ( super paramagnetic clustering ) 方 法 , 男 一 类 为 基于 蒙特 卡 
党 算法 ( monte carlo algorithm )。 其 中 SPC 算 法 在 决定 那些 内 部 密度 很 高 但 松散 的 连接 于 其 
他 部 分 的 模块 效果 非常 好 。 在 最 近 , 又 不 断 发 展 出 许多 新 的 图 形 聚 类 算法 ,如 高 连通 子 图 算 
法 (highly connected sub graphs, HCS ) 有限 邻 居 搜 索 聚 类 算法 ( restricted neighborhood search 
clustering, RNSC ) 以 及 马尔 可 夫 聚 类 算法 ( markov clustering, MCL ) 等 。 


(二 ) 基于 KEGG 通 路 分 析 的 基因 功能 预测 


通路 分 析 是 现在 经 常 被 使 用 的 芯片 数据 基因 功能 分 析 法 。 与 G0 分 类 法 (应 用 单个 基因 
的 G0 分 类 信息 ) 不 同 ,通路 分 析 法 利用 的 资源 是 许多 已 经 研究 清楚 的 基因 之 间 的 相互 作用 ， 
即 生物 学 通路 。 人 研究 者 可 以 把 表达 发 生变 化 的 基因 集 叶 入 通路 分 析 软 件 中 ,进而 得 到 变化 
的 基因 都 存在 于 哪些 已 知 通 路 中 ,并 通过 统计 学 方法 计算 哪些 通路 与 基因 表达 的 变化 最 为 
相关 。 现 在 已 经 有 丰富 的 数据 库 资源 帮助 研究 人 员 了 解 及 检索 生物 学 通路 ,对 芯片 的 结果 
进行 分 析 。 主 要 的 生物 学 通路 数据 库 有 以 下 两 个 : DKEGG 数 据 库 : 迄今 为 止 , KEGG 数 据 
库 是 回 公 众 开放 的 最 为 著名 的 生物 学 通路 方面 的 资源 网 站 。 在 这 个 网 站 中 ,每 一 种 生物 学 
通路 都 有 专门 的 图 示 说 明 。(BBioCarta 数 据 库 : BioCarta 是 一 家 生物 技术 公司 , 它 在 其 公共 
网 站 上 提供 了 用 于 绘制 生物 学 通路 的 模板 。 人 研究 者 可 以 把 符合 标准 的 生物 学 通路 提供 给 
BioCarta 数 据 库 。BioCarta 数 据 库 不 会 检验 这 些 生 物 学 通路 的 质量 ,因此 其 中 的 资源 质量 参 
差 不 齐 ,并 且 有 许多 相互 重复 。 然 而 BioCarta 数 据 库 数据 量 巨 大 , 且 不 同 于 KEGG 数 据 库 , 包 
含 了 大 量 代谢 通路 之 外 的 生物 学 通路 ,所 以 也 得 到 广泛 的 应 用 。 

心 片 数据 通路 分 析 的 第 一 步 是 差异 基因 的 通路 定位 (图 3-15 ), 一 些 商 业 软 件 如 Genespring 
可 以 做 到 ,基于 EASE 算 法 的 开放 在 线程 序 DAVID 也 可 以 实现 定位 。 目 前 的 通路 分 析 方 法 还 
存在 很 多 局 限 性 ,例如 只 注意 到 基因 集合 定位 到 了 哪个 通路 而 忽略 了 其 在 通路 中 的 位 置 , 如 
果 一 个 通路 由 茶 个 基因 产物 触发 或 被 单个 受 体 激活 ,并 且 特 定 的 蛋白 没有 表达 ,这 个 通路 就 
会 受到 严重 影响 甚至 关闭 ; 相反 ,如 果 多 个 基因 与 某 个 通路 相关 但 都 只 出 现在 通路 的 下 游 ， 
那么 其 表达 水 平 的 变化 就 可 能 不 会 对 通路 造成 很 大 影响 。 为 外 ,一 些 基因 往往 有 多 个 功能 
分 布 于 不 同 的 通路 发 挥 不 同 的 作用 ,要 得 到 相对 准确 的 结果 还 必须 考虑 通路 的 拓扑 结构 。 
目前 很 少 有 能 将 基因 差异 表达 值 变 化 应 用 于 通路 分 析 的 方法 , Pathwayexpress 提 出 了 一 种 基 
于 IF( impact factor ) 的 通路 分 析 方 法 ,综合 了 差异 基因 的 标 化 的 差异 表达 值 .通路 中 基因 的 
统计 学 显著 性 以 及 信号 通路 的 拓扑 学 三 方面 内 容 。Pathwayexpress 主 要 基于 KEGG 库 ,结果 
输出 中 目 动 把 差异 基因 以 不 同 颜色 定位 于 通路 中 ,红色 为 上 调 , 蓝 色 为 下 调 , 这 些 定 位 者 上 
调和 下 调 基因 的 通路 图 可 以 在 Java 控 制 台中 找到 绝对 路 径 ,在 浏览 希 中 打开 或 保存 ,也 可 以 
GML 格 式 导 出 ,然后 直接 导入 Cytoscape, 用 merge 结 点 功能 把 多 个 相关 pathway 连 接 起 来 , 显 
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图 3-15 通过 表达 谱 数 据 进行 通路 定位 


IR HAEREA ,并 分 别 以 红 蓝 色 显 示 显 车 性 通路 中 上 调 下 调 的 基因 ( 结 点 ), 以 及 这 些 基因 与 其 
他 基因 间 的 相互 作用 ( 边 ), 可 以 从 不 同 视角 观察 其 位 置 ,不断 放 大 就 可 以 看 到 结 点 的 基因 名 
称 。 其 他 的 可 视 化 工具 还 有 pathwaystudio 、genmapp arrayxpath 、osprey 等 。 Biolayout 也 是 一 
丈 分 于 作用 网 络 展示 工 具 , 所 不 同 的 是 结果 为 三 维 图 形 界 面 


三 、 基 因 功 能 预测 的 常用 工具 >> 


(一 ) 基于 GO 的 基因 功能 分 析 软 件 


EASE( expressing analysis systematic explorer ) 是 比较 早 的 用 于 心 片 功能 分 析 的 网 络 平台 
由 均 国 国立 卫生 人 研究 院 (NIH ) 的 人 研究 人 员 riian MRE RT VAL ARIS E S ORE A P 
得 到 的 基因 寻 人 EASE 进行 分 析 , EASE 会 找 出 这 一 系列 的 基因 都 存在 于 哪些 G0 分 类 中 。 其 


—————_—___ aaaaaaaaaaaaaaiIaiħiŮĂ 








CHAPTER 3 GENE ANNOTATION AND FUNCTIONAL CLASSIFICATION 


最 主要 特点 是 提供 了 一 些 统计 学 选项 以 判断 得 到 的 GO 分 类 是 否 符合 统计 学 标准 。EASE 能 
进行 的 统计 学 检验 主要 包括 Fisher 精确 概率 检验 ,或 是 对 Fisher 精 确 概率 检验 进行 了 修饰 的 
EASE 得 分 ( EASE score )。 

由 于 进行 统计 学 检验 的 G0 分 类 的 数量 很 多 ,所 以 EASE 采 取 了 一 系列 方法 对 “多 重 
检验 ”的 结果 进行 校正 。 这 些 方 法 包括 Bonferroni 校 正法 、Benjamini falsediscovery rate 和 
bootstraping。 同 年 出 现 的 基于 GO 分 类 的 芯片 基因 功能 分 析 平 台 还 有 底特律 韦 恩 大 学 开发 的 
Onto—Express. 2002F , Norway 大 学 和 Uppsala 大 学 联合 推出 的 Rosetta 系统 将 GO 分 类 与 基因 
表达 数据 相 联 系 , 引 入 了 “最 小 决定 法 则 ”( minimal decision rules ) 的 概念 。 它 的 基本 思想 
是 在 对 多 张 心 片 结果 进行 肾 类 分 析 之 后 ,与 表达 模式 不 相近 的 基因 相 比 ,相近 的 基因 更 有 可 
能 参与 相同 的 生物 学 功能 的 实现 。 比 较 闭 名 的 基于 GO 分 类 法 的 芯片 数据 分 析 网 络 平台 还 
有 很 多 ,这 里 列举 了 其 中 的 一 部 分 ( 表 3-4 ): 


表 3-4 用 GO 分 类 法 进行 芯片 功能 分 析 的 网 络 平台 


平台 名 称 网 址 
Onto—Tools http: //vortex.cs.wayne.edu/projects.htm 
ROSETTA http: //rosetta.lcb.uu.se/general/ 
GOToolBox http: //burgundy.cmmt.ubc.ca/GOToolBox/ 
GOstat http: //gostat.wehi.edu.au/ 
GFINDer http: //www.medinfopoli.polimi.it/GFINDer/ 
FatiGO http: //www.fatigo.org/ 
EASE http: //david.abee.nciferf.gov/ease/ease.jsp 


(—) 基于 KEGG 的 基因 功能 分 析 软 件 


最 先 出 现 的 通路 分 析 软 件 之 一 是 GenMAPP( gene microarray pathway profiler ), 它 可 以 免 
费 使 用 ,其 最 新 版 本 为 Gen-MAPP2。 在 这 个 软件 中 ,使 用 者 可 以 用 几 种 灵活 的 文件 格式 输 
AB ON ik SBE, GenMAPP 的 基因 数据 库 包 含 许多 从 常用 的 资源 中 得 到 的 物种 特异 性 
的 基因 注释 和 识别 符 ( ID )。 这 些 ID 可 以 将 使 用 者 输入 的 基因 与 不 同 的 生物 学 通路 的 基因 联 
系 起 来 。 这 些 生 物 学 通路 存在 于 GenMAPP 的 MAPP 文 件 中 。MAPP 文 件 需 要 时 常 下 载 更 新 。 
它 包含 有 许多 KEGG 生 物 学 通路 ,一 些 GenMAPP 自 己 的 生物 学 通路 和 许多 GO 分 类 的 MAPP 文 
件 , 全 部 操作 人 简单 明了 。 而 且 依 徘 其 自 囊 的 MAPPBuilder 和 MAPPFinder 两 个 软件 ,使 用 者 可 
以 目 己 绘制 生物 学 通路 和 对 MAPP 文件 进行 检索 。 由 于 使 用 者 可 以 自己 绘制 生物 学 通路 保 
存 为 MAPP 格 式 ,而 且 这 个 文件 很 小 , 易 在 网 络 上 传播 ,所 以 GenMAPP 数 据 库 更 有 利于 研究 
者 之 间 的 及 时 交流 。 由 于 上 述 特 点 , GenMAPP 数 据 库 及 软件 仍 是 现今 免费 平台 里 应 用 比较 
iz. 

2004 年 发 表 的 Pathway Miner 也 是 应 用 较为 广泛 的 免费 通路 分 析 网 络 平 台 , 由 美国 亚 利 
桑 那 大 学 瘤 症 中 心 建立 维护 ,其 最 突出 的 特点 就 是 信息 全 面 ,操作 简便 。 使 用 者 可 以 在 这 
个 网 站 中 获得 单个 基因 的 序列 、 功 能 注释 ,以 及 有 关 它 们 编码 的 蛋白 结构 功能 ,组 织 分 布 ， 
OMIM 等 信息 。 对 于 通路 分 析 部 分 ,使 用 者 给 出 基因 集 及 它们 的 表达 变化 值 ,网 站 可 以 根据 
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三 大 公用 的 通路 数据 库 : KEGG、GenMAPP 和 BioCarta, 生 成 变化 基因 参与 的 通路 ,并 用 Fisher 
精确 概率 检验 。PathwayMiner 目 动 把 得 到 的 通路 分 成 两 大 类 : 代谢 通路 和 细胞 调节 通路 。 方 
便 使 用 者 根据 不 同 的 研究 目的 选择 需要 查看 的 结果 。 在 2006 年 国内 也 开发 了 用 于 通路 分 析 
的 网 络 平台 , 即 KOBAS( KO- Based annotation system ), 其 基于 KEGG 数 据 库 建立 ,由 北京 大 学 
生命 科学 院 开发 和 维护 。 其 特点 是 可 直接 采用 基因 或 重 白 质 的 序列 录入 基因 ,并 对 录入 的 
基因 和 集 进 行 KO 注释 。 对 于 结果 的 可 靠 性 检验 提供 了 四 种 统计 方法 。 使 用 者 可 以 在 网 站 进 
行 注册 ,网 站 会 为 使 用 者 保存 输入 的 数据 ,方便 日 后 直接 调用 。 最 近 推 出 的 软件 Eu.Gene 整 
合 了 来 自 KEGG、Gen-MAPP 以 及 Reactome 的 通路 数据 ,并 采用 Fisher 精 确 概 率 检验 及 基因 集 
tá 424 IT Gene Set Enrichment Analysis, GSEA ) 来 检验 结果 是 否 具 有 统计 学 意义 。 这 里 列 
举 了 部 分 通路 分 析 的 网 络 平台 及 它们 的 网 址 ( 表 3-5 )。 


表 3-5 通路 分 析 网 络 平台 











AES I ee s 
GenMAPP http: //www.genmapp.org/ 
Pathway Miner http: //www.biorag.org/pathway.html 
KOBAS http: //kobas.cbi.pku.edu.cn 
GEPAT http: //gepat.bioapps.biozentrum.uni—wuerzburg.de/GEPA T/index.faces 
VitaPad http: //bioinformatics.med.yale.edu/group 
KEGGanim http: //biit.cs.ut.ee/kegganim/ 
WholePathwayScope http: //www.abec.nciferf.gov/wps/wps_index.php 
VisANT 3.0 http: //visant.bu.edu/ 


Eu.Gene http: //www.ducciocavalieri.org/bio/Eugene.htm 
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Section 4 Gene Set Enrichment Analysis 


一 、 富 集 分 析 的 目的 和 意义 >> 


已 建立 的 基因 及 其 产物 注释 数据 库 包 含 了 丰富 的 知识 和 复杂 的 结构 ,促使 研究 人 员 开 
展 以 注释 数据 库 为 知识 基础 的 基因 功能 研究 ,以 便 更 好 地 利用 注释 系统 。 一 组 基因 直接 注 
释 的 结果 是 得 到 大 量 的 功能 结 点 。 这 些 功能 具有 概念 上 的 交 私 现象 ,导致 分 析 结 果 宛 余 ,不 
利于 进一步 的 精细 分 析 , 所 以 研究 人 员 和 硕 望 对 得 到 的 功能 结 点 加 以 过 滤 和 筛选 ,以 便 获 得 更 
有 意义 的 功能 信息 。 目 前 最 常用 的 方法 是 基于 CO 或 KEGG 的 富 集 分 析 。 人 们 通过 多 种 方法 
获得 大 量 的 感 兴趣 基因 ,如 差异 表达 基因 集 、 共 表达 基因 模块 蛋白 复合 物 基因 簇 等 ,然后 寻 
找 这 些 感 兴趣 基因 集 显 著 富 集 的 CO 结 点 或 KEGG 通 路 ,这 有 助 于 指导 进一步 深 大 细致 的 实 


二 、 富 集 分 析 的 基本 原理 》》 


传统 的 单 基 因 分 析 方 法 存在 许多 缺陷 ,如 难以 对 芯片 分 析 中 筛选 出 大 量 的 差异 表达 
基因 合理 的 解释 .未 考虑 基因 间 相 互 作 用 不 能 有 效 地 利用 一 些 先 验 信息 .差异 表达 基因 
可 重复 性 差 等 问题 ,为 了 克服 单 基因 分 析 的 诸多 缺点 ,提出 了 基于 已 定义 的 基因 和 集 ( gene 
set ) 进行 分 析 的 方法 一 一 基因 富 集 分 析 ( gene set enrichment analysis, GSEA )。 基 因 集 
的 定义 基于 统一 的 先 验 生 物 学 知识 ,如 已 发 表 的 有 关 生 物 通道 基因 共 表 达 信 息 等 。 一 
个 基因 集 是 指 一 组 具有 相同 生物 学 功能 或 位 于 同一 生物 通道 的 基因 。 最 常用 于 基因 和 集 
的 基因 注释 数据 库 有 Gene Ontology( GO ) 和 KEGG。 一 组 基因 直接 注释 的 结果 是 得 到 大 
量 的 功能 结 点 。 这 些 功 能 具有 概念 上 的 交 共 现象 ,导致 分 析 结 果 克 余 , 不 利于 进一步 的 
精细 分 析 , 所 以 研究 人 员 希 望 对 得 到 的 功能 结 点 加 以 过 滤 和 筛选 ,以 便 获 得 更 有 意义 的 
功能 信息 。 目 前 最 常用 的 方法 是 基于 GO 或 KEGG 的 富 集 分 析 。 人 们 通过 多 种 方法 获得 
大 量 的 感 兴趣 基因 ,如 差异 表达 基因 集 、 共 表达 基因 模块 .和 蛋白 复合 物 基因 簇 等 ,然后 寻 
找 这 些 感 兴趣 基因 和 集 显 著 富 集 的 G0 结 点 或 KEGG 通 路 ,这 有 助 于 指导 进一步 深入 细致 的 
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因此 , 富 集 分 析 方 法 通 筑 是 分 析 一 组 基因 在 某 个 功能 结 点 上 是 否 过 出 现 (over- 
presentation )。 这 个 原理 可 以 由 单个 基因 的 注释 分 析 发 展 到 大 基因 和 集合 的 成 组 分 析 。 由 于 分 
析 的 结论 是 基于 一 组 相关 的 基因 ,而 不 是 根据 单个 基因 ,所 以 富 集 分 析 方 法 增加 了 人 研究 的 可 
徘 性 ,同时 也 能 够 识别 出 与 生物 现象 最 相关 的 生物 过 程 。 富 集 分 析 中 常用 的 统计 方法 有 累 
计 超 几何 分 布 、Fisher 精 确 检 验 等 。 


累计 超 几 和 何 分 布 公式 : 
Bre 
P(X>q)=1- y = (3-1) 


a a 


其 中 入 为 注释 系统 中 基因 总 数 ,n 为 将 要 考察 的 结 点 或 通路 本 身 注释 的 基因 数 , m 为 感 兴 
趣 的 基因 集 大 小 ,x 为 基因 集 与 结 点 或 通路 的 交集 数目 。 


Fisher 精 确 检验 公 xk: 
£ 十 十 


KB 


1 为 系统 中 基因 总 数 , a 为 感 兴趣 的 基因 集中 的 基因 数目 , b 为 将 要 考察 的 结 点 或 通路 本 
号 所 注释 的 基因 数目 , c 为 去 除 感 兴趣 基因 以 外 的 基因 数目 , a 为 待考 察 结 点 基因 去 除 与 感 
兴趣 基因 重合 的 数目 。 

















三 、 富 集 分 析 常 用 工具 》》 


(一 ) GO 富 集 分 析 常 用 工具 


利用 富 集 分 析 方 法 ,对 基因 注释 数据 库 做 生物 信息 学 研究 产生 了 很 多 富 集 分 析 工 具 。 
这 些 工 具 对 促进 基因 功能 分 析 以 及 研究 高 通 量 的 生物 学 数据 起 到 了 重要 的 作用 。 表 3-6 列 
举 一 些 稼 用 富 集 分 析 工 具 。 在 芯片 的 数据 分 析 中 ,研究 者 可 以 找 出 哪些 变化 基因 属于 一 
共同 的 CO 功能 分 文 , 并 用 统计 学 方法 检定 结果 是 否 具 有 统计 学 意义 ,从 而 得 出 变化 基因 主 
要 参与 了 哪些 生物 功能 。EASE 是 比较 早 的 用 于 芯片 功能 分 析 的 网 络 平台 。 由 美国 国立 卫 
生 研 究 院 CNIH ) 的 研究 人 员 开 发 。 研 究 者 可 以 用 多 种 不 同 的 格式 将 芯片 中 得 到 的 基因 导 
人 和信 EASE 进 行 分 析 , EASE 会 找 出 这 一 系列 的 基因 都 存在 于 哪些 CO 分 类 中 。 其 最 主要 特点 
是 提供 了 一 些 统计 学 选项 以 判断 得 到 的 CO 分 类 是 否 符合 统计 学 标准 。EASE 能 进行 的 统计 
学 检验 主要 包括 Fisher 精确 概率 检验 ,或 是 对 Fisher 精 确 概率 检验 进行 了 修饰 的 EASE 得 分 
( EASE score )。 
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表 3-6 常用 GO 分 析 的 网 络 平台 及 网 址 ce 

数据 库 i | 网 址 
ROSETTA http: //rosetta.lcb.uu.se/general/ 
GOToolBox http: //burgundy.cmmt.ubc.ca/GOToolBox/ 
Onto-express http: //vortex.cs.wayne.edu/projects.htm 
EASE http: //david.abcc.ncifcrf.gov/ease/ease.jsp 
GoMiner http: //discover.nci.nih.gov/gominer/index.jsp 
GOStat http: //gostat.wehi.edu.au/ 
GFINDer http: //www.medinfopoli.polimi.it/GFINDer/ 
g: Profiler http: //biit.cs.ut.ee/gprofiler/ 
GOEAST http: //omicslab.genetics.ac.cn/GOEAST/ 
GSEA http: //www.broadinstitute.org/gsea/ 
DAVID http: //david.abee.nciferf.gov/ 


由 于 进行 统计 学 检验 的 GO 分 类 的 数量 很 多 ,所 以 EASE 采 取 了 一 系列 方法 对 “多 重 检验 ” 
的 结果 进行 校正 。 这 些 方 法 包括 弗 明 尼 校 正法 ( Bonferroni ), 本 杰 明 假 阳 性 率 法 ( Benjamini 
falsediscovery rate ) 和 靴 带 法 ( bootstraping )。 同 年 出 现 的 基于 GO 分 类 的 芯片 基因 功能 分 析 
平台 还 有 Wayne state 大 学 开发 的 Onto-Express。2002 年 ,挪威 大 学 和 马 普 了 萨 拉 大 学 联合 推出 
的 Rosetta 系统 将 CO 分 类 与 基因 表达 数据 相 联系 ,引入 了 “最 小 决定 法 则 ”( minimal decision 
rules ) 的 概念 。 它 的 基本 思想 是 在 对 多 张 芯 片 结果 进行 聚 类 分 析 之 后 ,与 表达 模式 不 相近 的 
基因 相 比 ,相近 的 基因 更 有 可 能 参与 相同 的 生物 学 功能 的 实现 。 

(=) KEGG 富 集 分 析 常 用 软件 

通路 分 析 是 现在 经 常 被 使 用 的 芯片 数据 基因 功能 分 析 法 。 与 CO 分 类 法 (应 用 单个 基因 
的 G0 分 类 信息 ) 不 同 , 通 路 分 析 法 利用 的 资源 是 许多 已 经 研究 清楚 的 基因 之 间 的 相互 作用 ， 
即 生 物 学 通路 。 研 究 者 可 以 把 表达 发 生变 化 的 基因 列表 导入 通路 分 析 软 件 中 ,进而 得 到 变 
化 的 基因 都 存在 于 哪些 已 知 通路 中 ,并 通过 统计 学 方法 计算 哪些 通路 与 基因 表达 的 变化 最 
为 相关 。 现 在 已 经 有 丰富 的 数据 库 资源 帮助 研究 人 员 了 人 解 及 检索 生物 学 通路 ,对 心 片 的 结 
果 进 行 分 析 ( 表 3-7 )。 

表 3-7 常用 通路 分 析 的 网 络 平台 及 网 址 
eee eee Reg 
DAVID http: //david.abec.nciferf.gov/ 


GenMAPP http: //www.genmapp.org/ 
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续 表 

数据 库 ie | (OMA 

PathwayMiner http: //www.biorag.org/pathway.html 

KOBAS http: //kobas.cbi.pku.edu.en 

VitaPad http: //bioinformatics.med.yale.edu/group 

KEGGanim http: //biit.cs.ut.ee/kegganim/ 

WholePathwayScope http: //www.abcc.ncifcrf.gov/wps/wps. index.php 

VisANT 3.0 http: //visant.bu.edu/ 


最 匈 出 现 的 通路 分 析 软 件 之 一 是 CenMAPP( gene microarray pathway profiler ), "t nj 
以 免费 使 用 ,其 最 新 版 本 为 Cen-MAPP2。 在 这 个 软件 中 ,使 用 者 可 以 用 几 种 灵活 的 文件 格 
式 输入 目 己 的 表达 说 数据 , GenMAPP 的 基因 数据 库 包 含 许多 从 常用 的 资源 中 得 到 的 物种 
特异 性 的 基因 注释 和 识别 符 (ID )。 这 些 ID 可 以 将 使 用 者 输入 的 基因 与 不 同 的 生物 学 通路 
的 基因 联系 起 来 。 这 些 生 物 学 通路 存在 于 GenMAPP 的 MAPP 文 件 中 。MAPP 文 件 需 要 时 
前 下 载 更 新 。 它 包含 有 许多 KEGG 生 物 学 通路 ,一 些 CenMAPP 自 己 的 生物 学 通路 和 许多 
GO 分 类 的 MAPP 文件 ,全 部 操作 简单 明了 。2004 年 推出 的 Pathway Miner 也 是 应 用 较为 广 
泛 的 免费 通路 分 析 网 络 平台 ,由 美国 亚利桑那 大 学 癌症 中 心 建 立 维护 ,其 最 突出 的 特点 就 
是 信息 全 面 , 操 作 人 简便 。 使 用 者 可 以 在 这 个 网 站 中 获得 单个 基因 的 序列 功能 注释 ,以 及 
有 关 它 们 编码 的 蛋白 结构 功能 ,组 织 分 布 , OMIM 等 信息 。 对 于 通路 分 析 部 分 ,使 用 者 给 出 
基因 列表 及 它们 的 表达 变化 值 ,网 站 可 以 根据 三 大 公用 的 通路 数据 库 : KEGG、GenMAPP 
All BioCarta ,生成 变化 基因 参与 的 通路 ,并 用 fisher 精确 概率 检验 。PathwayMiner 自 动 把 得 
到 的 通路 分 成 两 大 类 : 代谢 通路 和 细胞 调节 通路 。 方 便 使 用 者 根据 不 同 的 研究 目的 选择 
需要 得 看 的 结 来 。 在 2006 年 国内 也 开发 了 用 于 通路 分 析 的 网 络 平台 , 即 KOBASC KO-based 
annotation system ), 其 基于 KEGG 数 据 库 建立 ， 由 北京 大 学 生命 8 科学院 开发 和 维护 。 其 特 
点 是 可 直接 采用 基因 或 蛋白 质 的 序列 录入 基因 ,并 对 录入 的 基因 列表 进行 KO 注释 。 对 于 
结果 的 可 靠 性 检验 提供 了 四 种 统计 方法 。 使 用 者 可 以 在 网 站 进行 注册 ,网 站 会 为 使 用 者 
保存 输入 的 数据 ,方便 日 后 直接 调用 。 最 近 推 出 的 软件 Eu.Gene 整合 了 来 自 KEGG, Gen- 
MAPP 以 及 Reactome 的 通路 数据 ,并 采用 fisher 人 GSEA ) 
来 检验 结果 是 否 具有 统计 学 意义 。 


四 、 富 集 分 析 应 用 实例 》》 


目前 有 很 多 方便 易 用 的 软件 可 以 对 基因 和 集 做 富 集 分 析 , 如 DAVID, GO-2D, GOEAST 等 ， 
都 提供 多 种 参数 选择 和 丰富 的 结果 分 析 。 用 户 提 交感 兴趣 的 基因 和 集 , 软 件 反 馈 给 用 户 这 组 
基因 集 富 集 在 哪些 结 点 上 ,每 个 结 点 注释 的 基因 数目 ,统计 检验 的 P 值 ,并 提供 CO 系统 的 可 
视 化 。 
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上 面 介绍 了 多 种 定 集 分 析 工 具 , 这 里 以 目前 应 用 较为 广泛 的 DAVID 为 例 对 基因 和 集 进行 
具体 分 析 ( 图 3-16 )。DAVID 是 一 个 综合 工具 ,不 但 提供 基因 富 集 分 析 , 还 提供 基因 间 ID 的 转 
换 、 基 因 功 能 的 分 类 等 工具 。 


GO:0007166 
GO:0007165 











GO:0009987 





图 3-16 DAVIDLA BAAR 


idk “Start Analysis" Jr ,第 一 步 为 提交 基因 集 ,选择 基因 标识 名 和 基因 集 类 型 ; 第 二 步 
得 到 注释 结果 摘要 (图 3-17 ), 包 括 多 种 注释 数据 ; 然后 选择 感 兴 趣 的 注释 内 容 得 到 富 集 分 
析 结 果 。 

这 里 以 KEGG 通 路 的 富 集 分 析 为 例 ( 图 3-18 )。 提 交 之 后 的 结果 如 图 3-18, 可 以 看 到 ,对 
提交 的 基因 集 做 富 集 分 析 , 找 到 5 个 具有 显著 性 的 通路 。 这 里 的 “P-Value” 是 通过 Fisher 精 
确 检 验 得 到 的 p 值 ,“Benjamini” 指 的 是 本 杰 明 假 阳 性 率 校正 方法 。 
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图 3-18 DAVID 在 KEGG 上 富 集结 果实 例 
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一 、 基 因 功 能 比较 的 意义 >>. 


FH MAR SEU 了 分 类 系统 理论 ( system of taxonomy ) 和 达尔 文 提出 了 生物 进化 论 ( theory 
of evolution ), 比较 和 分 类 的 人 研究 已 经 成 为 生物 学 的 中 心 广 柱 。 生 物 学 不 同 于 其 他 学 科 的 原 
因 是 ,其 知识 很 少 能 够 被 减少 到 数学 形式 。 因 此 ,生物 学 家 们 希望 能 够 利用 目 然 语言 或 寻求 
其 他 的 形式 来 组 织 知识 体系 来 记录 复杂 的 生物 学 知识 。 例 如 ,在 科学 出 版 物 中 ,在 分 类 学 计 
划 书 中 ,如 何 编辑 整理 .展现 生 物体 系 知识 。 最 基础 的 科学 知识 是 生物 规律 和 模式 的 比较 ， 
即 实 体 间 的 比较 ,例如 ,比较 基因 、 细 胞 ` 有机体、 种 群 、 物 种 等 ,从 而 发 现 它 们 的 相似 特征 和 
差异 特征 。 当 出 现 新 的 实体 时 ,生物 学 家 可 以 通过 比较 他 们 来 了 解 实体 并 根据 他 们 间 的 相 
似 程度 进行 多 方面 知识 的 推论 。 比 较 实 体 的 方法 已 经 越 来 越 受 到 科学 家 们 的 重视 。 例 如 ， 
两 个 基因 的 序列 或 结构 可 以 卫 接 (通过 序列 的 对 其 比较 算法 ) TR EC ,同样 的 功能 方面 的 比较 
也 是 如 此 ,不 同 的 是 ,序列 和 结构 有 一 个 客观 的 代表 性 和 可 衡量 的 特征 ,而 功能 方面 却 没有 
这 样 的 特征 ,但 这 并 不 意味 着 功能 比较 必须 在 一 个 共同 的 和 客观 的 形式 表达 上 比较 ,所 以 功 
能 比较 并 不 是 不 可 能 的 。 

自动 测序 的 出 现 对 生物 学 知识 的 探索 起 到 了 深刻 的 影响 。 作 为 实验 学 的 方法 ,人 研究 的 
范围 已 经 从 基因 水 平 转移 到 了 基因 组 水 平 上 ,计算 分 析 已 经 被 证 明 在 处 理 越 来 越 多 的 数据 
时 是 必 不 可 少 的 方法 。 因 此 ,采取 共同 的 和 客观 的 知识 表现 方式 ,来 帮助 共享 知识 和 计算 机 
推理 已 成 为 关键 。 这 种 需求 直接 导致 了 本 体 的 发 展 ,如 注释 基因 产物 (基因 本 体 论 ), 注 释 序 
列 (序列 本 体 论 ), 注 释 的 实验 分 析 的 本 体 ( 基 因 忌 片 和 基因 表达 数据 的 本 体 论 )。 

注释 本 体 的 应 用 提供 了 一 种 比较 实体 的 手段 。 例 如 ,如 果 两 个 基因 产物 具 被 注释 在 同 
一 个 体系 中 ,那么 我 们 可 以 比较 它们 所 注释 术语 的 相似 性 从 而 判断 两 个 基因 产物 的 相似 性 。 
虽然 这 种 比较 含蓄 间接 (例如 ,找到 一 组 基因 产物 相互 作用 的 共同 术语 ), 但 利用 语义 相似 
性 的 方法 却 可 以 得 到 一 个 明确 的 比较 。 语 义 相似 性 测度 多 年 来 一 直 是 自然 语言 处 理 和 信息 
检索 研究 的 重要 组 成 部 分 ,是 计算 语言 学 和 人 工 智 能 应 用 中 吸 待 解决 的 问题 。 

在 生物 学 中 ,基因 本 体 论 ( gene ontology ) 主要 集中 在 分 子 生物 学 中 的 语义 相似 性 的 人 研 
究 , 不 仅 因为 它 是 生命 科学 界 最 广泛 采用 的 本 体 , 也 因为 它 在 比较 基因 产物 的 功能 上 的 广泛 
应 用 。 基 于 GO 注释 体系 的 语义 相似 性 方法 的 应 用 为 基因 产物 的 功能 比较 提供 了 很 好 的 出 
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口 。GO 应 用 的 一 个 重要 方面 就 是 对 G0 术语 的 语义 相似 性 进行 度量 。 通 过 定义 一 个 语义 相 
似 性 测度 ,来 度量 两 个 本 体 或 两 个 术语 的 相似 性 所 返回 的 数值 ,反映 了 它们 之 间 的 亲密 程 
度 ,这 将 大 大 提高 基因 研究 工作 的 效率 ,节省 更 多 的 人 力 物 力 。 

目前 已 经 开发 了 很 多 基于 GO 等 结构 化 数据 库 的 基因 功能 相似 性 算法 。 这 些 算法 对 于 
构建 功能 网 络 以 及 预测 基因 功能 有 重要 意义 ,成 为 生物 医学 研究 与 应 用 中 的 重要 工具 。 对 
基因 功能 的 比较 可 以 了 解 未 知 基 因 的 功能 ,认识 基因 与 疾病 的 关系 ,掌握 基因 的 产物 及 其 在 
生命 活动 中 的 作用 等 。 











二 语义 相似 性 原理 与 算法 >) 


下 面 介绍 如 何 利 用 信息 理论 体系 中 的 相似 性 概念 ,来 比较 基因 间 的 功能 相似 性 。 基 于 
基因 本 体 论 ,从 特定 蛋白 质 的 功能 信息 出 发 ,查找 与 其 功能 相似 或 者 相关 的 蛋白 质 , 或 者 对 
两 个 重 日 质 之 则 的 关联 程度 进行 比较 .量化 ,从 而 推测 它们 在 生命 活动 中 扮演 的 角色 关系 。 
通常 认为 ,如 果 两 个 基因 产物 的 功能 相似 ,那么 它们 在 GO 中 注解 的 功能 术语 就 相近 ,所 以 我 
们 只 要 能 求 出 G0 中 术语 对 的 相似 度 , 就 可 以 近似 估计 两 基因 产物 功能 的 相似 程度 。 通 过 研 
究 ,如果 能 找到 新 的 计算 语义 相似 度 的 方法 ,使 G0 术语 间 的 语义 相似 度 更 加 精确 ,那么 就 能 
更 加 精确 地 查找 功能 相似 或 者 相关 的 和 蛋白质 ,从 而 更 加 精确 地 估计 两 基因 产物 功能 的 相似 
程度 。 

人 们 广泛 了 解 的 是 Resnik 在 1995 年 提出 的 对 分 类 系统 中 每 个 类 定义 的 语义 相似 性 算 
法 ,计算 两 个 类 的 语义 相似 性 ,后 有 多 位 科学 家 经 过 改进 等 提供 了 多 种 类 相似 性 的 计算 测 
度 。 在 2002 年 Lord 第 一 次 提出 把 语义 相似 性 理论 应 用 到 GO 分 类 系统 中 ,计算 两 个 术语 之 间 
的 相似 性 ,从 而 可 以 利用 不 同 的 方法 计算 基因 间 的 功能 相似 性 ,最 后 可 以 根据 功能 相似 性 得 
分 预测 未 知 基因 的 功能 。 

在 GO 这 种 层级 结构 的 词汇 分 类 系统 中 ,从 父 术 语 到 子 术语 ,含义 是 逐 层 深入 的 关系 。 
越 往 下 层 ,概念 越 具 体 。 换 言 之 , 越 往 下 层 , 术 语 的 信息 含量 越 大 , 根 术 语 的 信息 量 近 似 为 0。 
在 分 类 系统 中 ,利用 CO 结构 信息 和 基因 注释 信息 ,首先 设 一 个 函数 ,计算 得 到 每 个 术语 的 信 
ganm p) A pogl 表示 术语 及 它 的 子 术语 上 注释 的 所 有 基因 数 , pe) 
术语 c 的 概率 ,并 且 随 着 术语 c 在 层级 结构 中 的 升级 ,概率 p 是 单调 递增 的 , top 术 语 概 率 是 1。 
则 术语 ec 的 信息 含量 值 为 : IC=-log( ple ))。 由 公式 可 知 ,术语 的 概率 越 大 ,而 它 的 信息 含量 
越 小 。 即 如 果 cl 是 c2 的 下 属 , 则 p( cl) 万 p( ec2)。 所 以 说 根 术 语 的 信息 含量 最 小 , 越 往 下 层 ， 
膏 息 含量 越 大 , 即 信息 含量 随 着 层级 结构 的 深度 增加 更 增 大 。 这 样本 体 体系 中 的 每 一 个 术 
语 都 被 量化 ,都 具有 一 个 信息 含量 值 ,代表 了 这 个 术语 所 含有 的 信息 量 。 所 有 方法 术语 间 的 
比较 和 基因 间 的 比较 都 是 依靠 这 个 信息 含量 值 来 进行 进一步 计算 的 。 








三 、 生 物 学 术语 相似 性 》》 


得 到 每 个 术语 的 信息 含量 值 后 ,计算 任意 两 个 术语 的 相似 性 方法 有 多 种 , Resnik 提 出 的 
语义 相似 性 概念 是 定义 为 两 个 术语 的 公共 祖先 中 最 近 距 离 的 祖先 术语 的 IC 值 即 为 它们 的 相 
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似 性 值 , 即 


sim (c,,c, ) = max ,| log p(c) | (3-3) 

为 了 说 明 CO 结 构 中 结 点 关系 ,如 何 计 算 两 个 结 点 间 共 同 祖先 的 最 近 祖 先 , 如 图 3-19 中 
解释 GO: 0007154 即 为 G0: 0007166 和 GO: 0007267 的 最 近 共 同 祖先 。 可 以 看 到 GO: 0007166, 
GO: 0007267 的 共同 最 近 祖 先 即 为 60: 0007154, 也 就 认为 它 的 IC 值 为 两 个 结 点 的 相似 性 值 。 
在 Resnik 的 方法 中 ,大 不 同 结 点 对 的 祖先 相同 ,那么 任何 子 层 的 结 点 对 的 相似 性 就 没有 区 
别 ,不 能 加 以 比较 了 ,显然 这 是 不 合理 的 。Lin 的 方法 与 Resnik 的 信息 量 的 方法 有 些 相似 ,在 
理论 上 是 很 有 根据 的 。 这 种 方法 的 改进 之 处 在 于 : 其 一 ,两 个 要 比较 概念 的 信息 量 之 和 的 标 
准 化 ; 其 二 ,假定 要 比较 的 两 个 概念 是 独立 的 。 该 方法 把 两 基因 产物 的 相似 性 定义 为 两 术语 
共同 的 最 近 祖 先 术语 的 信息 量 与 两 术语 平均 信息 量 的 比 。 
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Annotation Summary Results 
Help and Tool Manual 
Current Gene List: Uploaded List 1 34 DAVID IDs 
Current Background: HOMO SAPIENS Check Defaults F] 
BJ Main Accessions (0 selected) 
Bl Other Accessions (0 selected) 
B Gene Ontology (3 selected) 
B Protein Domains (3 selected) 
Bl Pathways (3 selected) 
B General Annotations (0 selected) 
® Functional Categories (3 selected) 
E Protein Interactions (0 selected) 
© Literature (0 selected) 
B Disease (1 selected) 
B Tissue Expression 


Combined View for Selected Annotation 
E 


图 3-19 GO 结构 示意 图 
GO: 0007154 即 为 60: 0007166 和 G0: 0007267 的 最 近 共 同 祖先 





ŽIC (By) 

IC(¢,) + IC(c,) ams 
Jiang 和 Conrath 的 方法 继承 了 图 表 中 基于 边 的 方法 的 特点 ， 并 且 结 合 了 基于 术语 的 信息 
量 的 方法 来 计算 术语 对 之 间 的 相似 度 。 但 是 也 考虑 了 连接 概念 之 间 边 的 数目 ,还 有 局 部 密 
度 ,以 及 概念 之 间 的 连接 类 型 等 相关 因素 。 这 种 方法 尤其 注意 了 连接 父 术 语 与 子 术语 之 间 
的 边 的 连接 强度 。 在 上 一 种 方法 中 我 们 已 经 讨论 了 子 术 语 的 实例 概率 与 其 父 术 语 之 间 的 关 

系 ,所 以 根据 信息 论 我 们 整理 得 到 : 
sim (e J= 2IC,, (cc)-| IC(c,)+ IC(c, )| (3-5 ) 


以 上 几 种 方法 在 生物 学 研究 中 是 比较 常用 的 ,也 有 一 些 其 他 的 方法 不 断 地 被 提出 来 。 


sim(c,c,)-— 
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比如 基于 语义 路 径 覆 盖 的 Combine 算 法 ,该 算法 首先 计算 出 每 个 术语 的 信息 量 ,然后 分 别 计 
算 两 个 术语 的 语义 路 径 的 交集 之 间 术 语 信息 量 之 和 以 及 这 两 个 术语 语义 路 径 的 并 集 之 间 术 
语 信息 量 之 和 ,将 这 两 者 之 间 的 比率 作为 相似 性 度量 值 , 文 中 不 做 详细 介绍 。 





四 、 基 因 ( 基因 产物 ) 功能 比较 》》， 


在 G0 系统 中 ,可 以 计算 得 到 任意 两 个 术语 的 相似 性 值 , 则 可 根据 基因 注释 在 哪些 术语 
上 而 计算 两 个 基因 之 间 的 功能 相似 性 。 最 简单 的 方法 是 取 两 个 基因 所 注释 的 术语 对 的 最 大 
值 或 平均 值 , 来 作为 两 个 基因 的 功能 相似 性 。 
对 于 给 定 的 两 个 基因 ,它们 的 GO 注释 对 应 于 术语 集合 C; = CC., Cy HI 6; = CCQ ..., 
Cy , 则 公式 表示 为 : 
sim(g, g,;)- max (sim(c,.c; )) ( 3-6) 


lsisM ,l<j<N 


sim(g,g,)- avg (sim(c,,c,)) (3-7) 


l<i<M ,l<j<N 


最 优 分 配 法 是 目前 被 广泛 应 用 的 方法 ,如 图 3-20 所 示 ,首先 取出 一 个 基因 中 的 结 点 与 另 
一 基因 中 的 所 有 结 点 的 语义 相似 性 最 大 值 , 即 基因 1 中 结 点 1 与 基因 2 中 的 所 有 结 点 的 语义 相 
似 性 最 大 值 为 0.75 ,基因 2 中 的 结 点 2 与 基因 1 中 所 有 结 点 的 语义 相似 性 最 大 值 为 0.91 ; 分 别 
计算 出 每 个 结 点 最 大 值 , 最 后 求 和 取 平 均值 , 即 为 两 个 基因 的 最 优 功能 相似 性 值 。 公 式 如 下 : 


DAVID Bioinformatics Resources 2008 
National Institute of Allergy and Infectious Diseases (NIAID NIt 





Announcing the release of DAVID 6.7 Please see the announcement in the DAVID forum for details DAVID 2008 will be completely 
retir inn 317 ; sr) 


Functional Annotation Chart 








Help and Manual 
Current Gene List: Uploaded List_1 
Current Background: HOMO SAPIENS 
34 DAVID IDs 
Bl Options 
Rerun Using Options Create Sublist Bi Download File 
enes 人 
o KEGG_PATHWAY Neurodegenerative Diseases RI — umm 7 0.6 4.8E-9 9.78-7 
C) KEGG_PATHWAY Bisphenol A degradation RI wm 3 8.8 1.4E-3 1.38-1 
口 KEGG_PATHWAY 2. MÀ RI um 3 3 3.7E-3 E 
a KEGG_PATHWAY Alzheimer's disease RI m 3 8.8 S.4E-3 2.48-1 
口 KEGG_PATHWAY Amyotro RT = 5.9 7.48-2 SSE 





from your list are not in the output 
图 3-20 最 优 方 法 计算 两 个 基因 功能 相似 性 示意 图 


N 
rowScore = -5 max S; ( 3-8) 
l 


l<j<M 


M 
columnScore = = > max S ( 3-9 ) 
] 


l<j<N y 
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: rowScore + columnScore 
sim(s.s2)-— ——3—— — ( 3-10) 


五 .基因 集合 功能 比较 >> 


融通 量 实验 在 生物 学 领域 的 应 用 ,得 到 了 大 量 的 基因 集合 数据 ,对 这 些 基因 集合 数据 的 
人 研究 分 析 越 来 越 被 科学 家 们 关注 。 这 些 基因 集合 常常 被 用 来 作为 分 子 标记 物 去 识别 复杂 疾 
病 的 遗传 机 制 。 它 们 通常 是 在 特定 的 生物 学 条 件 下 得 到 的 ,而 对 于 那些 具有 相关 但 又 不 完 
全 相同 的 条 件 下 得 到 的 不 同 的 基因 和 集 , 人 研究 人 员 希 望 寻 找 它 们 之 间 的 关联 ,例如 对 于 同样 本 
在 不 同 实验 平台 下 检测 到 的 差异 表达 基因 的 可 重复 性 等 。 仅 仅 利用 基因 集 间 的 重复 度 作为 
测度 来 衡量 它们 之 间 的 相似 性 已 不 能 满足 科学 家 的 要 求 , 科 学 家 们 不 断 发 展 和 改良 生物 信 
县 学 方法 去 研究 这 一 问题 。 

语义 相似 性 的 比较 方法 为 这 一 方面 的 研究 提供 了 可 能 。 对 基因 集合 找到 其 功能 注释 结 
所 ,从 而 利用 语义 相似 性 的 理论 对 基因 集合 间 进 行 功能 比较 ,量化 得 分 ,从 而 实现 了 从 生物 
学 功能 水 平 去 比较 基因 集 的 功能 相似 性 。 无 论 是 利用 基因 注释 的 方法 还 是 基因 集 方法 都 可 
以 找到 这 个 基因 集 的 功能 术语 集合 ,这 已 经 在 前 面 的 章节 进行 了 详细 介绍 。 然 后 对 于 两 个 
基因 集合 得 到 的 功能 术语 基因 进行 语义 相似 度量 , 则 是 与 基因 间 的 相似 性 的 计算 方法 相同 ， 
读者 可 以 根据 目 己 数据 的 特点 选择 不 同 的 测度 。 

目前 对 于 基因 集合 间 的 功能 比较 和 量化 ,基于 语义 相似 性 方法 研究 者 们 已 经 开发 了 很 
多 的 方法 可 供 利用 ,这 里 我 们 介绍 两 个 常用 的 方法 ,一 个 利用 单个 基因 间 的 功能 相似 性 的 整 
合 分 析 , 男 一 个 是 利用 基因 和 集 的 全 局 功能 的 整体 分 析 ( 图 3-21 )。 

第 一 个 方法 的 思想 是 ,对 于 两 个 基因 集中 寻找 重复 基因 计数 ,然而 大 量 的 非 重复 基因 无 
法 计算 ,所 以 寻找 非 重复 基因 是 否 在 功能 上 相关 。 利 用 CO 和 有恒 日 质 互 作 网 上 的 关联 性 对 基 
因 对 进行 打分 ,从 而 找 出 两 个 基因 集合 中 相关 联 基因 对 的 比例 ,作为 判断 两 个 基因 集合 功能 
是 否 相关 的 标准 。 

第 二 个 方法 是 利用 基因 集 的 整体 功能 进行 比较 两 个 基因 集 的 功能 相似 程度 。 这 个 方法 
基于 GO 对 于 每 个 基因 集 进 行 富 集 分 析 得 到 显著 性 术语 ,表示 这 个 基因 集 的 全 局 功能 ,再 对 
这 些 术 语 按 与 基因 集 的 相关 程度 加 权 。 对 两 个 基因 集合 得 到 的 两 个 市 有 权重 的 术语 集合 做 
语义 相似 性 计算 ,利用 最 佳 匹配 原则 ,可 以 算出 它们 的 相似 性 得 分 。 最 后 按 相 同 数 目的 基因 
进行 随机 扰动 ,统计 基因 集 的 相似 性 得 分 是 否 显 著 , 从 而 比较 两 个 基因 集 是 否 功 能 相似 。 


六 、 常 用 工具 》》 


目前 已 经 有 一 些 比 较 基因 间 关 联 程度 的 算法 和 工具 ,利用 语义 相似 性 原理 计算 基因 间 
功能 相似 性 的 工具 已 经 有 很 多 。 我 们 以 GOSim 举 例 说 明 , GOSim 是 一 个 R 包 的 工具 。GOSim 
不 但 可 以 提供 两 个 结 点 的 语义 详细 性 和 两 个 基因 间 的 功能 相似 性 ,还 进行 了 进一步 的 功能 
分 析 , 即 基于 基因 在 GO 上 的 功能 相似 性 对 基因 进行 聚 类 ,并 对 聚 类 结果 提供 可 视 化 ,这 为 研 
究 者 提供 了 大 大 的 方便 。 比 较 著 名 的 基于 语义 相似 性 的 方法 来 做 基因 比较 分 析 的 工具 还 有 
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Gene Set 1 jos Gene Set 2 











Step 1 

Identifying significant related 
functional categories using 
enrichment analysis 


pz MICA CCILC2I ) 
IC( CH ) cIC( C21 ) 


C13 0.787 













C120.473 





Xe 
C14 0498 


Step 2 
Calculating semantic... 
similarity score between 
two significant categories 
on DAG context 


GIm 0.107 


Enrichment Significance Value(ESV) 
_ iSim0.07*0.787*0.977 


£o | 
SE 
ES! 
Step 3 o = 
Calculating the functional = a 
similarity score between two 2 x 
gene sets(GSFS score) 9 + 
os & 
S g 
O 9 
3 2? BEMWE | |. | — "v; 0 07 5» 


n 


GSFS score=BMA(iSimMatrix)=0.737 
Step 4 


Statistical evaluation of the 
significance of the GSFS score d id WE ^ VIN a 
using Monte Carlo methods 0.737 «0.01 3.53 


图 3-21 利用 基因 集 全 局 功能 比较 基因 集 功能 





很 多 ,这 里 列举 了 其 中 的 一 部 分 ( 表 3-8 ): i 
X3-8 常用 基于 GO 分 析 的 语义 相似 性 方法 的 平台 及 网 址 











ea 
GOToolBox http: //genome.crg.es/GOToolBox/ 

FunSimMat http: //www.funsimmat.de/ 

FuSSiMeG http: //xldb.fc.ul.pt/rebil/ssm/ 


G-SESAME http: //bioinformatics.clemson.edu/G-SESAME/ 
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续 表 
数据 库 2n | 网 址 
GSFS http: //bioinfo.hrbmu.edu.cn/GSFS 
esbl.GO RE 
GOSim R 包 
SemSim R 包 
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CHAPTER 4 
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PROTEIN STRUCTURE ANALYSIS 


蛋白 质 的 各 种 各 样 的 功能 是 以 它们 对 与 之 相互 作用 分 子 的 高 度 特异 性 为 基础 的 ， 
这 就 要 求 蛋 白质 具有 相当 的 刚性 空间 结构 。 这 些 结构 的 微小 改变 常常 会 使 蛋白 质 表 
失 活 性 或 发 生 剧 烈 变化 ,从 而 使 其 功能 发 生 改 变 甚 至 影响 生理 功能 导致 疾病 的 产生 。 
有 关 有 蛋白 质 三 维 结构 的 知识 是 了 解 蛋 白质 如 何 行使 功能 所 必需 的 。 生 物 系 统 的 高 分 
辨 结构 信息 将 允许 我 们 对 生命 系统 的 功能 、 对 系统 修饰 或 扰动 的 后 果 进 行 精确 的 解释 
和 推理 。 这 一 结构 信息 的 展现 与 日 益 增 长 的 基因 组 .蛋白 组 .代谢 组 信息 相 联 系 , 为 分 
析 生 物 医 学 问题 提供 了 强大 的 研究 背景 。 





154 





Section 1 Advanced Structures of Protein 
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质 的 一 级 结构 ( primary structure ) 就 是 蛋白质 多 上 肽 链 中 氨基 酸 残 基 的 排列 顺序 ( sequence ), 
靠 共 价 键 维持 多 肽 链 的 连接 , 而 不 涉及 其 空间 排列 ,是 和 蛋白质 最 基本 的 结构 。 它 是 由 基因 上 
遗传 密码 的 排列 顺 友 所 决定 的 。 各 种 氨基 酸 按 遗传 密码 的 顺序 ,通过 肽 键 连接 起 来 ,成 为 多 
肘 链 , 故 肽 键 是 蛋白质 结构 中 的 主键 。 重 白质 的 一 级 结构 决定 了 入 日 质 的 二 级 、 三 级 等 高 级 
结构 。 成 百 亿 的 天 然 重 日 质 各 有 其 特殊 的 生物 学 活性 ,决定 每 一 种 重 昌 质 的 生物 学 活性 的 
结构 特点 ,站 先 在 于 其 肽 链 的 氨基 酸 序 列 。 由 于 组 成 重 日 质 的 20 种 氨 基 酸 各 有 具 特殊 的 侧 链 ， 
侧 链 基 团 的 理化 性 质 和 空间 排 布 各 不 相同 , 当 它 们 按照 不 同 的 序列 关系 组 合 时 ,就 可 形成 多 
种 多 样 的 空间 结构 和 不 同 生物 学 活性 的 重 日 质 分 子 。 


(一 ) 蛋 日 质 的 二 级 结构 


和 集 日 质 二 级 结构 ( secondary structure ) 是 指 多 肽 链 依 助 于 氢 键 治 一 维 方 回 排列 成 具有 周 
期 性 的 结构 的 构象 ,是 多 肽 链 局 部 的 空间 结构 (构象 ), 主 要 有 o -螺旋 、B —Urze. B -转角 及 
无 规 卷曲 等 几 种 形式 ,它们 是 构成 重 日 质 高 级 结构 的 基本 要 系 。 
1. a -螺旋 ( a -helix) a -螺旋 是 焦 白 质 中 最 常见 最 典型 含量 最 丰 定 的 二 级 结构 元 
件 。 在 a- 蝶 旋 中 ,与 a 碳 原 子 相 连 的 两 个 二 面 角 都 是 恒定 的 ,并 且 每 峰 螺 旋 包 含 3.6 个 氨基 
酸 残 基 , 残 基 侧 链 伸 向 外 侧 ,同一 肽 链 上 的 每 个 残 基 的 酰胺 氧 和 位 于 它 后 面 的 第 4 个 残 基 上 
的 狼 基 氧 彼此 之 间 形 成 氧 键 。 这 种 氢 键 大 致 与 螺旋 轴 平 行 。 一 条 多 肽 链 呈 a -螺旋 构象 的 
推动 力 就 是 所 有 肽 键 上 的 酰胺 所 和 痰 基 氧 之 间 形 成 的 链 内 指 键 。 在 水 环境 中 , 肽 键 上 的 酰 
胺 和 氧 和 痰 基 氧 既 能 形成 内 部 ( a -螺旋 内 ) 的 氢 键 ,也 能 与 水 分 子 形成 氧 键 。 典 型 的 a -螺旋 
是 由 18 个 氨基 酸 残 基 形成 的 5 圈 螺 旋 , 长 约 274。 a -螺旋 太 长 趋 于 形成 纤维 ,不 易 形 成 球形 。 
在 大 多 数 球状 蛋白 中 , a -螺旋 的 平均 长 度 约 174 ,相当 于 11 个 氨基 酸 残 基 。 
2. B -Jr/&( B-sheet) B - 折 双 也 是 一 种 重复 性 的 结构 ,可 以 看 成 是 一 种 特殊 的 螺旋 ， 
是 拉 伸 的 a- 蝶 旋 , 大 多 数 球状 重 日 质 中 ,每 股 B- 折 闭 链 或 B 链 ( B -strand ) 的 平均 长 度 约 
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20 4 ,相当 于 6.5 个 氨基 酸 残 基 , 通 常 含有 3~10 个 氨基 酸 残 基 。B - 折 炙 链 中 同一 肽 段 邻近 上 肽 
键 间 很 难 形成 氧 键 ,只 有 通过 较 远 距离 的 肽 键 之 间 形 成 氨 键 ,将 多 股 B_ -HEHEA — 
组 B- 折 全 , 一 般 称 为 B 片 层 结 构 。 通 常 分 为 平行 式 和 反 平 行 式 两 种 类 型 ,它们 是 通过 上 肽 链 
间或 肽 段 间 的 氢 键 维系 。 构 成 B 片 层 的 几 股 B 折 全 链 如 果 走 向 是 相同 的 , 则 为 平行 的 B 片 
层 ; 如 果 它 们 的 走向 是 相反 的 , 则 是 反 平行 的 B 片 层 。 平行 折合 片 比 反 平行 折 难 片 更 规则 且 
一 般 是 大 结构 , 反 平 行 折 僵 片 可 以 少 到 仅 由 两 个 B 链 组 成 , 反 平行 的 B 折 熏 比 平行 的 B 折 对 
更 为 稳定 。 

3. B -转角 ( B -tum )”B -转角 是 连接 相同 主 链 上 a -螺旋 、B - 折 和 县 等 二 级 结构 的 关 
键 结构 。 在 B -转角 中 第 一 个 残 基 的 C=0 与 第 四 个 残 基 的 N-H 氢 键 键 合 形成 一 个 紧密 的 环 ， 
使 B -转角 成 为 比较 稳定 的 结构 ,多 处 在 蛋白 质 分 子 的 表面 ,在 这 里 改变 多 肽 链 方向 的 阻力 
比较 小 。B -转角 可 看 成 是 由 几 个 氨基 酸 残 基 构 成 的 最 小 的 反 平行 的 B 片 层 , 即 截 短 的 发 夹 
结构 。B -转角 的 特定 构象 在 一 定 程 度 上 取决 于 它 的 组 成 氨基 酸 , 某 些 氨 基 酸 如 腿 氨 酸 和 甘 
氨 酸 经 党 存在 其 中 ,由 于 甘氨酸 缺少 侧 链 (只 有 一 个 H ), 在 B -转角 中 能 很 好 地 调整 其 他 残 
基 的 空间 阻碍 ,因此 是 立体 化 学 上 最 合适 的 氨基 酸 ; 而 且 氨 酸 具 有 换 装 结构 和 固定 的 角 , 因 
此 在 一 定 程 度 上 迫使 B -转角 形成 ,促使 多 肽 自身 回 折 上 且 这 些 回 折 有 助 于 反 平行 B 折 炙 片 的 
形成 。 大 多 数 B -转角 存在 于 分 子 的 表面 , 极 少 出 现在 分 子 的 内 部 。B 转角 及 其 附近 比 整个 
分 子 有 更 大 的 亲 水 性 。 

p - 凹 起 是 一 种 小 片 的 非 重 复 结构 ,能 单独 存在 ,但 大 多 数 经 党 作为 反 平行 B -HEH P 
的 一 种 不 规则 情况 而 存在 。B - 凸 起 可 认为 是 B -折合 链 中 额外 插入 的 一 个 残 基 , 它 使 得 在 
两 个 正常 氧 键 之 则 在 凸 起 折 芋 链 上 是 两 个 残 基 , 而 男 一 侧 的 正常 链 上 是 一 个 残 基 。 

4. OMJÉCO loop) QQ 环 形 具有 准 有 序 结 构 , 从 形式 上 可 以 看 成 是 B -转角 的 延伸 ,这 
类 肘 段 的 外 形 和 和 希腊 字母 Q 相似, 故 被 称 为 Q 环 形 。Q 环 形 的 可 变性 比 转 角 更 大 。 在 直接 
和 和 集 日 质 生物 活性 有 天 、 有 更 大 活动 性 的 位 点 绝 大 多 数 是 由 转角 和 环形 构成 的 。 

5. 无 规 卷曲 ( random coil) 无 规则 卷曲 或 称 卷曲 ( coil ), 泛 指 那些 不 能 被 归 人 明确 的 二 
级 结构 如 折 生 片 或 螺旋 的 多 肽 区 段 ,是 规律 性 较 低 而 难以 描述 的 特殊 类 型 二 级 结构 。 其 所 
涉及 的 残 基数 量 差异 大 ,整体 外 形变 化 大 ,可 采取 多 种 折 鲜 形式 , 量 不 同 构象 间 的 能 量 差 异 
小 而 容易 相互 转变 , 故 其 结构 的 规律 性 很 低 , 但 每 一 种 蛋白 质 肽 链 中 存在 的 这 一 类 型 “无 规 ” 
肽 段 的 空间 构象 是 大 致 相同 的 。 它 们 也 像 其 他 二 级 结构 那样 是 明确 而 稳定 的 结构 ,否则 和 蛋 
日 质 就 不 可 能 形成 三 维 空间 上 每 维 都 具 周 期 性 结构 的 晶体 。 它 们 受 侧 链 相互 作用 的 影响 很 
大 ,经 常 构成 酶 活性 部 位 和 其 他 重 白 质 特异 的 功能 部 位 。 无 规 卷曲 在 球状 蛋白 质 表 面 出 现 
较 多 ,也 是 连接 其 他 规则 二 级 结构 的 结构 模式 。 


(二 ) 超 二 级 结构 


超 二 级 结构 ( supersecondary structure ) 指 位 于 同一 主 链 的 多 个 二 级 结构 组 装 形成 的 特定 
组 沪 体 ,可 直接 作为 三 级 结构 的 或 结构 域 的 组 成 单元 ,是 从 重 白 质 二 级 结构 形成 三 级 结构 的 
一 个 过 渡 结 构 形 式 , 也 称 为 立体 结构 形成 的 模 体 。a RIE, BHAA B 转角 的 二 级 结构 自 吴 
可 形成 超 二 级 结构 ,不 同 的 二 级 结构 组 合 可 以 形成 多 种 类 型 的 超 二 级 结构 。 

超 二 级 结构 主要 有 如 下 类 型 : (DB -转角 或 Q 环 等 连接 连续 四 个 a -螺旋 形成 的 四 wa - 
螺旋 捆 ; @C 中 部 固定 位 置 含有 亮 氮 酸 及 其 他 玻 水 侧 链 氮 基 酸 残 基 、 在 螺旋 两 端 含有 强 亲 水 侧 
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链 氨 基 酸 的 a -螺旋 组 成 的 亮 氨 酸 拉链 (leucine zipper ); @@) 一 条 主 链 中 相 邻 七 个 两 亲 a - 螺 
旋 通 过 过 渡 结构 形成 的 七 次 穿 膜 螺 旋 组 ; 由 连续 主 链 中 两 段 o -螺旋 连接 三 段 B TBE 
成 的 Rossmann 折 和 至; © B -转角 连接 a -螺旋 构成 的 a -螺旋 - B -转角 -a -螺旋 ; ONIME 
a -螺旋 -a -螺旋 -0O 环 - a -螺旋 等 ; CO B TBAB AGRA, HRA PAI T IF AR XT 
应 生物 化 学 功能 ,但 其 结构 模式 是 解析 蛋白质 组 装机 制 的 关键 信息 之 一 。 

结构 域 ( domain ) 也 是 蛋白 质 构 象 中 二 级 结构 与 三 级 结构 之 间 的 一 个 层次 , 它 是 在 较 大 
的 蛋白 质 分 子 中 ,由 于 多 肘 链 上 相 邻 的 超 二 级 结构 紧密 联系 ,形成 在 空间 上 可 以 与 重 日 质 亚 
基 结 构 明 显 区 别 的 结构 形态 。 一 般 每 个 结构 域 由 约 100~200 个 氨基 酸 残 基 组 成 ,各 有 独特 的 
空间 构象 ,可 承担 特定 的 生物 化 学 功能 。 


(三 ) 三 级 结构 (tertiary structure) 


蛋白 质 的 一 个 引 人 注 目的 特征 是 它们 都 有 确定 的 三 维 结构 。 一 个 伸展 的 或 随机 排 布 的 
多 肽 链 没 有 任何 生物 活性 ,多 肽 链 必须 按照 一 定 的 规律 折叠 成 三 维 结构 , 才 具 有 生物 活性 。 
蛋白 质 三 级 结构 即 蛋白 质 分 子 中 所 有 共 价 相连 原子 的 空间 相对 位 置 ,由 多 肽 链 在 二 级 结构 
的 基础 上 进一步 盘 绕 和 折 丢 形成 ; 蛋白 质 如 有 特殊 的 必需 辅 基 , 其 三 级 结构 也 包括 来 自 这 类 
辅 基 的 原子 的 空间 位 置 。 稳 定 蛋 白质 三 级 结构 主要 靠 氨基 酸 侧 链 之 间 的 朴 水 相互 作用 、 氢 
键 .二 硫 键 . 范 德 华 力 和 静电 作用 等 。 不 同类 型 的 蛋白 质 局 部 结构 分 解 后 可 具有 很 高 的 相似 
性 ,但 在 三 级 结构 层面 不 同 蛋 白质 所 体现 的 各 自 整体 结构 特征 通常 不 同 。 

蛋白 质 按 其 “环境 条 件 ” 的 大 体 结构 分 类 

1. 纤维 状 蛋白 质 “ 整 条 肽 链 几乎 是 单一 的 二 级 结构 组 成 的 巨大 的 .通常 是 缺 水 性 的 聚 
集体 ; 其 结构 通常 是 高 度 氢 键 键 合 和 高 度 规则 的 , 且 主 要 由 不 同 肽 链 间 的 相互 作用 维系 。 在 
生物 体内 起 到 结构 和 支撑 的 作用 。 

2. 膜 蛋 白质 “主要 是 指 多 次 穿 膜 的 膜 蛋白 ,存在 于 缺 水 性 的 膜 环 境 中 ,其 膜 内 部 分 是 高 
度 规则 的 ,也 是 高 度 氢 键 键 合 的 ,但 大 小 上 受 限 于 膜 的 厚度 。 在 膜 内 部 分 倾向 于 形成 两 亲 的 
o -螺旋 或 B TREE; 且 形 成 朴 水 的 在 外 侧 , 亲 水 的 在 内 侧 中 间 空 心 的 圆 桶 状 结构 ; 内 侧 可 
作为 亲 水 或 极 性 物质 的 通道 .连接 这 些 膜 内 二 级 结构 单元 的 肽 段 分 布 在 膜 的 两 侧 ,还 承担 其 
相应 的 生物 功能 。 

3. 水 溶性 球状 蛋白 质 “ 绝 大 多 数 的 蛋白 质 的 肽 链 折 丢 成 为 几乎 球状 的 结构 ,存在 于 水 
中 , 较 不 规则 (特别 是 小 的 球状 蛋白 质 )。 蛋 白质 的 结构 由 其 链 内 的 相互 作用 维系 ,其 中 起 重 
要 作用 的 是 在 序列 中 远离 但 在 空间 上 相 邻 的 烃基 ( 芍 水 ) 基 团 间 的 相互 作用 ,有 时 还 有 肽 链 
与 辅 因子 的 相互 作用 。 一 旦 具有 三 级 结构 后 ,蛋白质 内 部 变 得 更 为 紧密 ,其 内 部 是 大 量 的 极 
性 基 团 ,而 表面 是 以 侧 链 的 非 极 性 残 基 为 主导 地 位 , 极 性 和 非 极 性 残 基 这 样 的 分 布 ,使 得 肽 
链 中 大 部 分 键 的 张 角 适 合 于 稳定 构象 的 形成 。 在 蛋白 质 的 内 部 存在 有 极 少 量 的 亲 水 的 残 基 ， 
而 分 子 表面 是 一 些 朴 水 的 残 基 , 这 些 局 部 的 构象 具有 相对 偏 高 的 能 量 ,相对 地 处 于 较 不 稳定 
的 状态 ,并 以 此 行使 蛋白 质 的 功能 。 另 外 ,蛋白 质 内 部 的 部 分 水 分 子 也 和 一 些 极 性 的 基 团 或 
负电 性 的 原子 形成 氧 键 ,以 此 参与 蛋白 质 功 能 的 行使 。 


(四 ) 四 级 结构 
四 级 结构 是 独立 三 级 结构 形成 的 复合 物 ,其 中 每 个 独立 三 级 结构 为 亚 基 ( subunit ), 也 称 
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为 单 体 ( monomer ), 一些 具有 三 级 结构 的 肽 链 , 通 过 其 上 面相 互 作用 的 基 团 ,以 特定 的 方式 
组 装 成 为 一 种 更 高 层次 的 结构 ,这 个 结构 层次 就 是 蛋白 质 的 四 级 结构 。 其 分 类 原则 主要 有 : 
山 按照 亚 基 的 数目 分 类 : A 4p AERA AS RAKE. TESA , WIE eR s Hh HE ER i E 
球形 。 多 聚 体 可 以 成 为 线性 结构 。@ 按 照 亚 基 种 类 分 类 : 可 将 蛋白 质 分 为 由 相同 亚 基 和 不 
同 亚 基 构成 的 两 大 类 型 。 目 前 已 知 的 蛋白质, 绝 大 多 数 是 由 相同 亚 基 构 成 的 同 源 聚 集体 ; 由 
不 同 亚 基 组 成 的 异 源 聚 集体 ,也 主要 是 2 种 或 3 种 亚 基 组 成 的 。@) 按 照 四 级 结构 的 外 形 分 类 ; 
有 的 重 日 呈 球 形 , 男 一 些 呈 纤维 状 。 亚 基数 目 大 于 4 的 和 蛋白质 ,其 四 级 结构 可 以 呈现 多 种 排 
列 方式 和 不 同 的 对 称 性 。 

具有 四 级 结构 的 重 白 质 通 常 有 多 个 相同 或 不 同 的 活性 位 点 , 比 单纯 的 三 级 结构 和 蛋白质 
具有 更 复杂 的 功能 和 调节 机 制 。 很 多 膜 重 白 是 由 多 个 或 多 种 亚 基 组 成 的 具有 四 级 结构 的 重 
日 质 , 可 以 承担 多 种 多 样 的 功能 ,大 多 数 是 起 通道 和 运转 作用 的 蛋白质 以 及 受 体 类 重 白质 。 

形成 四 级 结构 全 部 依靠 非 共 价 键 相互 作用 ,来 自 不 同 亚 基 的 二 级 结构 间 可 发 生 强 的 相 
互 作用 以 稳定 四 级 结构 ,如 生成 跨 亚 基 的 更 大 B- 折 县 结构 或 -螺旋 聚集 体 ; FP, SURE 
玖 水 相互 作用 和 静电 作用 是 主要 维持 力 。 为 了 形成 稳定 的 四 级 结构 ,必然 要 求 相 互 作 用 的 
任 两 个 蛋白 质 之 间 的 空间 外 形 互 补 以 增加 接触 面 且 理化 性 质 互 补 。 这 些 特征 也 是 预测 蛋白 
质 间 相 互 作 用 时 有 用 的 辅助 判 据 。 

从 序列 预测 四 级 结构 实际 上 是 预测 不 同 蛋 白质 间 的 相互 作用 ,这 是 蛋白 质 功 能 预测 的 
重要 内 容 , 也 是 结构 生物 信息 学 的 重要 任务 。 








二 、 蛋 白质 结构 域 与 家 族 分 类 》》 


集 日 质 的 复杂 结构 和 功能 依赖 于 多 个 结构 域 的 协同 ; 和 蛋白质 缺失 某 个 结构 域 ( domain ) 
则 其 必然 缺失 对 应 的 生物 化 学 功能 。 据 重 日 质 序 列 相似 度 或 生物 化 学 功能 与 结构 的 相似 度 
nS ERAT AS AN ZAR C family ); 同一 家 族 重 日 质 有 茶 种 类 似 的 生物 化 学 功能 或 者 类 似 的 
高 级 结构 。 因 此 ,了 解 重 日 质 结构 域 及 家 族 分 类 信息 ,对 于 重 白 质 绪 构 分 析 有 着 很 重要 的 


(一 ) 蛋白 质 结构 域 


结构 域 是 构成 集 日 质 亚 基 的 紧密 球状 区 域 ,为 介 于 二 级 与 三 级 结构 之 间 的 一 种 结构 层 
UR; 是 重 日 质 中 可 以 具有 独立 三 级 结构 的 部 分 ,通常 由 一 个 基因 外 显 子 编码 ,并 可 具有 特定 
的 功能 。 在 较 大 的 重 日 质 中 结构 域 之 间 通 过 较 短 的 多 肽 柔性 区 互相 连接 ; 重 日 质 的 结构 域 
有 了 时 还 可 分 为 一 些 次 级 结构 , 称 为 组 件 ( module )。 组 件 是 在 稳定 的 和 蛋白质 功能 域 中 和 常见 的 
一 种 进化 上 保守 而 又 独立 的 折 靶 单位 ,也 是 在 进化 压力 下 发 生 外 显 子 迁移 的 基本 单位 , 它 还 
参与 新 基因 的 产生 。 结 构 域 可 以 作为 蛋白 质 三 级 结构 的 组 件 ,通常 不 具有 完整 的 生物 学 功 
能 但 有 特殊 的 生物 化 学 作用 ,这 也 是 结构 域 与 三 级 结构 的 关键 区 别 。 

一 级 结构 氨基 酸 序 列 的 某 些 区 域 相 邻 的 氨基 酸 残 基 形 成 有 规则 的 二 级 结构 (如 a- 曙 
HE, B-E. B -转角 和 无 规 卷 曲 等 ); 然后 再 把 相 邻 的 二 级 结构 片段 集 装 在 一 起 ,形成 超 二 
级 结构 ; 在 此 基础 上 ,多 肽 链 再 进一步 折 和 县 ,成 为 近乎 球状 的 三 级 结构 就 可 成 为 一 个 结构 域 。 
最 常见 的 结构 域 含有 约 100~200 个 氨基 酸 残 基 , 一 般 至 少 40 个 ,多 的 可 达 400 个 以 上 ; 对 于 较 
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INEA JR A) FO AE , FL PA) A BE BI E AL, Xf D DX 7p tb BS AS Ie] A Fk, 3 208 88 EH 
Wi T RAP XA FCN NPA ESE). OSEE M T BOER ELA] FOR, — RRK & HK 
链 往往 由 两 个 或 两 个 以 上 相对 独立 的 三 维 实体 缔 合 形成 三 维 结构 体 。 从 功能 角度 看 ,很 多 
蛋白 质 属 于 多 结构 域 的 蛋白 ,其 功能 位 点 基本 都 位 于 结构 域 之 间 ,这 是 由 于 : 山 通 过 结构 域 
容易 构建 具有 特定 三 维 排 布 的 功能 中 心 ; 包 绪 构 域 之 间 篆 只 有 一 段 肽 链 相 连 ,使 结构 域 之 间 
容易 发 生 相 对 运动 ,这 将 有 利于 功能 位 点 与 对 应 成 分 相互 作用 或 施加 应 力 , 有 利于 产生 别 构 
效应 而 对 蛋 日 质 的 功能 实现 精细 调 方 。 


(=) 蛋白 质 家 族 分 类 


和 异 白 质 结构 域 对 于 了 解 重 白质 的 结构 和 功能 意义 重大 。 目 前 建立 在 结构 域 基础 上 的 重 
白质 家 族 数 据 库 有 PROSITE、PRINTS、 Pfam, SMART, SWISS, PROT, ProDom 和 BLOCKS 等 。 因 
为 每 个 数据 库 都 有 各 自 的 分 类 原则 和 积分 标准 ,将 它们 结合 起 来 可 以 更 准确 地 归 类 和 集 日 质 
家 族 和 描绘 结构 域 。 随 之 出 现 了 InterPro 数 据 库 , 它 是 将 蛋白质 的 结构 域 和 功能 位 点 加 以 统 
一 而 建立 的 数据 库 资源 。InterPro 联 合 PROSITE、PRINTS、Pfam 和 ProDom 四 个 独立 完整 的 蛋 
白质 结构 域 数 据 库 组 成 站 点 , 共 包 含 18 349 个 条 目 , 再 现 了 5149 个 结构 域 .11 082 个 蛋白质 家 
族 等 信息 。 此 外 , PDB、SCOP、CATH、HOMSTRAD、CAMPASS 等 蛋白 质 结 构 数 据 库 运用 不 同 
的 原理 来 识别 结构 相似 的 蛋白 质 超 家 族 ; 和 蛋白质 的 结构 域 在 进化 过 程 中 比 序列 保守 ,一些 通 
过 核 苷 酸 序列 识别 不 到 的 蛋白质 超 家 族 在 这 些 数 据 库 中 可 以 被 用 户 检索 查询 得 到 ( 表 4-1 )。 


表 4-1 常用 的 蛋白 质 结 构 域 查询 网 址 





— 数据库 Jue a 
PROSITE http: //www.expasy.ch/prosite/ 
BLOCKS http: //blocks.fherc.org/ 
Pfam http: //pfam.sanger.ac.uk/ 
ProDOM http: //prodom.prabi.fr/ 
SMART http: //smart.embl—heidelberg.de/ 
InterPro http: //www.ebi.ac.uk/interpro/ 
SBASE http: //www.icgeb.trieste.it/sbase 
PRINT http: //www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html 





三 、 蛋 白质 结构 可 视 化 软件 》》 


目前 已 有 蛋白 质 高 级 结构 数据 存储 的 通用 格式 和 数据 库 , 可 通过 软件 将 香 昌 质 高 级 续 
构 可 视 化 ,这 些 资 源 是 和 蛋白质 高 级 结构 信息 分 析 的 关键 基础 之 一 。 可 视 化 分 析 和 蛋白 质 的 融 
级 结构 有 利于 从 原子 则 相互 作用 的 层次 理解 生命 活动 过 程 的 信息 控制 机 制 ,理解 重 日 质 分 
子 结构 和 各 种 微观 性 质 与 宏观 性 质 之 间 的 关系 。 

(一 ) 常用 蛋白 质 分 子 图 形 系统 


目前 ,蛋白 质 分 子 图 形 学 软件 已 很 普及 ; 和 蛋白质 结 构 数 据 可 从 和 焦 白 质数 据 库 中 直接 获 
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f. ABET A ot FE El ARAS TIS 8 EAS FA GS , 配 以 免费 的 小 分 子 图 形 
设计 系统 (如 ACD FREE ) 或 商业 软件 ,就 可 开展 结构 生物 信息 学 的 探索 性 工作 。 

这 里 ,着 重 介 绍 集 日 质 三 维 图 形 相关 的 软件 Pymol 的 基本 应 用 . 

1. 软件 安装 、 启 动 和 教程 Pymol 可 在 http: Wwww.pymol.org/ 寻 找 链 接 下 载 ,与 其 他 
Windows 系 统 下 软件 的 安 疲 相同 。 

Pymol 局 动 后 显示 双 界 面 ,对 分 子 进行 操作 的 第 用 命令 及 按钮 都 集成 在 一 个 图 形 显 示 界 
面 ,但 文件 读 入 、 痛 景 设置 .操作 转变 .图像 输出 特征 分 析 等 功能 主要 集中 在 男 一 个 不 显示 
分 子 图 形 且 使 用 下 拉 沫 单 的 界面 ,并 带 有 命令 行 操作 模式 ; 关闭 任意 窗口 则 程序 关闭 。 图 形 
界面 左上 侧 列 出 主要 的 可 操作 对 象 并 分 成 几 个 层次 ,包括 所 选 对 象 、 重 白质 整体 等 ; 每 个 层 
次 的 对 象 有 五 种 主要 操作 : 动作 ( Asaction ) 显示 (S; Show ) 隐藏 ( H; hide )、 标 记 (L:Label )、 
上 色 ( C;Color )。Dispaly 下 拉 羔 单 中 可 设置 背景 (论文 中 这 类 图 一 般 用 白色 背景 ,而 报告 中 常 
FARR Fe AIER ), Wizard 中 有 测定 分 子弟 用 性 质 的 模块 ,包括 距离 HE ty SV 
及 尝试 进行 重 日 质 分 子 改造 的 功能 。 需 要 仔细 阅读 每 个 下 拉 羔 单 包含 的 功能 才 有 利于 发 挥 
该 软件 的 作用 。 可 先 恋 入 教程 文件 进行 学 习 ( 图 4-1 ). 


7 PyHOL Tcl/Tk GUL 
File Edt Build Movie Display Setting Scene Mouse Wizard Plugin 


COMPND 6 ENGINEERED: YES 

ObjectMolecule: Read secondary structure assignments. 
ObjectMolecule: Read crystal symmetry information. 
ymmetry: Found 18 symmetry operators. 

CmdLoad: "D:/2GRY.pdb" loaded as "2GRY". 


E PEOL Viewer 
/2GRY//8/169 176 181 186 196 201 206 211 216 221 226 231 236 





Tu <u p 人 国有 [到 


图 4-1 Pymol 启 动 后 的 两 个 操作 界面 (上 下 两 个 窗口 ), 随 后 读 入 教程 所 用 结构 


2. 主要 的 分 子 图 形 操作 和 性 质 测定 ”鼠标 是 主要 的 图 形 操作 工具 , 左 键 旋转 图 形 , 右 键 
调整 大 小 ,也 可 在 另 一 个 窗口 的 下 拉 菜 单 中 选择 放大 缩小 ; 可 设置 鼠标 的 模式 (两 键 与 三 刍 
鼠标 等 , 见 Mouse 下 拉 菜单 ) 可 显示 蛋白 质 中 每 条 肽 链 的 序列 和 非 蛋 白质 成 分 ( 单 击 图 形 界 
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面 右 下 角 字 母 $ 或 在 Display 下 拉 沫 单 中 选择 ); 鼠标 左 键 单 击 序列 选中 特定 待 操作 的 残 基 可 
同时 显示 对 象 所 在 位 置 ,在 Wizard 中 有 多 种 性 质 测定 功能 ,可 灵活 使 用 。 

Pymol 是 强大 的 分 子 图 形 显示 和 基本 特征 测定 系统 ,在 带 有 专业 显卡 的 计算 机 上 输出 
图 形 更 绚丽 。 但 Pymol 对 非 英 文 文件 名 和 长 文件 名 支持 不 够 。Pymol 自 带 二 级 结构 定义 词典 


TEAS a RERI EAN PE 有 时 会 给 出 一 些 不 尽 合理 的 a -螺旋 ; 不 过 有 些 商 业 软件 不 能 


识别 同 源 建 模 所 得 重 白 质 中 的 二 级 结构 而 Pymol 可 以 识别 这 


优势 。 


(二 ) 集成 的 分 子 模拟 与 分 析 的 图 形 学 


系统 


文 些 二 级 结构 ,这 是 Pymol 的 一 个 


集成 结构 生物 信息 学 、 分 子 操作 绝 大 部 分 功能 和 MD 模拟 轨迹 分 析 等 功能 的 商业 软件 已 


面市 ,如 Insight Il , Discover Studio 和 Sybyl 等 ; 3 
成 在 图 形 界 面 进 和 


应 用 人 研究 人 员 无 疑 可 事半功倍 。 
(=) 其 他 的 蛋白 质 可 视 化 软件 介绍 


IBA AR FP MAT AC FAY AE I 


软件 名 称 


RasMol 


Jmol 


Cn3D 


QuickPDB 


Mage 


74-2 目前 常用 的 蛋白 质 可 视 化 软件 
主要 功能 ， 


效果 图 ; 提供 多 种 结果 图 片 存储 形式 ; 提供 命令 行 操作 , 源 代码 
开放 用 户 可 自行 维护 


以 3D 形 式 查 看 蛋白 质 等 生物 大 分 子 化 学 结构 ,提供 命令 行 操 
作 , 提 供 结构 查询 工具 ,基于 网 络 界 面 可 通过 网 址 或 本 地 文件 
读 取 结构 ,无 需 安 装 (Jmol 提 供 的 功能 适用 于 小 分 子 , 唱 体 , 材 
料 和 生物 分 子 ) 

生物 分 子 三 维 结构 序列 以 及 序列 比 对 结果 的 可 视 化 工具 ; 读 
取 输 入 数据 格式 为 MMDB 格 式 文件 ,不 能 读 取 PDB 格 式 文件 ; 可 
紧密 联系 结构 与 序列 信息 ,可 根据 基于 结构 的 序列 比较 显示 分 
子 结构 之 间 的 关系 ; 可 自 定 义 标签 特征 ,输出 结果 格式 多 样 ,并 
可 对 结果 进行 文献 注释 ; 通过 网 络 浏览 器 来 作为 NCBI 的 Entrez 
系统 的 一 个 辅助 工具 ,也 可 作为 一 个 独立 的 程序 使 用 


用 JAVA 编 译 的 显示 结构 和 序列 的 工具 ; 网 络 浏览 可 直接 显示 
序列 信息 ,可 以 控制 设置 残 基 属性 等 ; 支持 多 种 文件 格式 输入 、 
可 以 不 同形 式 显示 三 维 结构 


广泛 应 用 于 教学 与 研究 中 ,输入 为 *.kinemage 文 件 格式 ,该 文件 
内 含有 焦 日 质 结构 的 各 种 信息 与 相关 命令 ; 可 实时 旋转 效果 
图 、 并 对 效果 图 进行 蛋白 质 结构 的 三 维 动画 演示 ,部 分 图 像 可 
隐藏 和 显示 ; 输出 格式 为 .kinemage, 也 可 以 多 种 其 他 格式 输出 


这 些 商 业 图 形 操作 界面 系统 价格 不 菲 ,但 可 集 
J 分子 模 拟 、 分 子 对 接 和 分 子 改造 等 操作 ,并 有 各 种 高 质量 的 图 形 显示 ,对 


结构 可 视 化 软件 和 在 线 服务 器 ,如 RasMol 和 Jmol 等 ,已 与 
PDB 数据 库 链 接 ; 另外 还 有 Cn3D、Mage、KiNG 等 可 视 化 软件 ( 表 4-2 )。 





直观 再 现 生物 分 子 3D 微 观 立体 结 "f; 提供 可 以 旋转 等 多 个 模式 


http: //www.bernstein- 
plus-sons.com/software/ 


rasmol/ 


http: //jmol.sourceforge.net/ 


http: //www.ncbi.nlm.nih. 
gov/Structure/CN3D/cn3d. 
shtml 


http: //www.sdsc.edu/pb/ 
Software.html 


http: //kinemage.biochem. 


duke.edu/software/mage. 


php 
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主要 处 理 目 标 是 分 子 动力 学 数据 ,可 对 生物 分 子 进行 结构 分 析 — http: //www.ks.uiuc.edu/ 
VMD 和 表征 ; 提供 多 用 途 交 互 式 图 形 界面 操作 ; 开源 并 提供 强大 脚 Research/vmd/ 


本 语言 ,可 用 于 程序 扩展 
KING KiNG 即 Kinemage, 是 在 Mage, JavaMage 和 Kinemage 软 件 基础 上 http: //kinemage.biochem. 
发 展 起 来 的 三 维 分 子 显 示 软 件 , 可 展示 生物 大 分 子 结构 duke.edu/software/king.php 


B[Swiss-Pdb Viewer 或 DeepViewer。 可 同时 分 析 几 个 蛋白质 的 ”http: //mac.softpedia. 

PDB 文件 并 分 析 结 构 相 似 性 .比较 活性 位 点 或 其 他 有 关 位 点 ; com/get/Math-Scientific/ 
Spdbv n] VAAN AE Sp i A SUBE fA E ICT B S SERE EEG NH; 可 SPDBV.shtml 

直接 从 软件 连接 到 Swiss-Model 服 务 器 对 蛋白质 理 论 立 体 结 构 

进行 构建 ,并 调用 POV-Ray 软 件 生成 高 质量 的 结构 图 像 

用 JAVA 语言 编译 的 结构 呈现 程序 ,网 络 浏览 ,可 从 URL 上 载 http: //www.empharm. 
WebMol 结构 ucsf.edu/~walther/webmol/ 

download. html 

可 显示 和 蛋 日 质 三 维 结构 并 生成 重 白 质 结构 的 分 子 艺 术 图 片 http: //www.fyxm.net/ 


Raster3D 
aster (TIFF 格 式 与 JPC 格 式 ) Raster3D-93918.html 
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Section 2 Analysis and Prediction of Protein Structure 


一 、 蛋 白质 结构 实验 检测 技术 与 结构 解析 >> 


蛋白 质 及 其 复合 物 .组 装 体 的 完整 精确 的 三 维 结构 的 测定 是 研究 生命 活动 中 分 子 结构 
和 功能 关系 ,揭示 生命 现象 本 质 的 基础 。 根 据 蛋 白质 的 状态 ,测定 蛋白 质 三 维 结构 的 方法 分 
为 两 大 类 : QD 应 用 X 射 线 晶 体 衍 射 图 谱 法 冷冻 电子 显微镜 技术 和 中 子 衍射 法 测定 晶体 中 的 
和 蛋白质 分 子 构象 ; @ 应 用 磁 共振 波谱 分 析 法 . 园 ( 圆 ) 二 色 性 光谱 法 ,激光 拉 曼 光 谱 法 ,荧光 
光谱 法 、 紫 外 差 光谱 法 和 氧 放 射 性 核 素 交换 法 等 测定 溶液 中 的 蛋白 质 构象 。 近 几 年 来 近 场 
光学 光谱 技术 、 表 面 等 离子 体 激 元 共振 技术 、 化 学 交 联 法 等 也 用 于 获得 蛋白 质 的 静态 或 动态 
结构 信息 。 


(一 ) 蛋白 质 晶体 结构 X 一 衍射 分 析 


X- 射 线 品 体 分 析 法 (X=-ray diffraction crystallography ) 是 解析 生物 大 分 子 结构 的 基本 方 
法 ,也 是 目前 分 状 率 最 高 的 方法 ,已 用 于 大 量 和 集 日 质 的 三 维 结构 的 解析 。 该 法 需要 将 行 分 
析 的 和 蛋 白 质 形成 晶体 ,所 用 和 绰 白 质 样品 量 很 大 ,故常 将 该 重 白 的 基因 克隆 到 表达 载体 ,在 特 
定 宿主 细胞 (如 大 肠 埃 希 菌 ) 中 诱导 表达 ,纯化 后 优化 条 件 结 品 ; PR K SR AS ET XT BAT 
射 ,收集 并 整合 相应 的 衍射 图 谐 , 通 过 复杂 的 计算 和 数据 解析 过 程 得 到 重 日 质 中 的 原子 坐标 
Fe 

高 通 量 唱 体 结构 解析 主要 涉及 数据 处 理 与 分 析 , 重 原子 的 定位 、 密 度 修饰 、 分子 蔡 换 、 
图 形 整 合 .模型 加 工 和 确认 等 环节 。X 射线 衍射 实验 记录 的 是 衍射 点 的 强度 和 方位 ,从 衍射 
点 的 强度 可 推算 出 该 点 的 结构 振幅 , 而 该 衍射 点 的 相 角 信息 却 无 法 从 实验 中 二 接 得 到 。 因 
此 ,晶体 结构 分 析 的 核心 问题 就 是 要 找 出 各 衍射 点 的 位 相 。 唱 体 衍射 数据 分 析 的 稼 用 软件 
有 XRayView、SOLVE 和 RESOLVE 等 。XRayView 适用 于 X 射 线 衍射 晶体 数据 的 交互 式 动态 
分 析 ,涉及 品 胞 的 构建 .品格 的 确定 .系统 消光 旋转 摄影 、 空 间 群 的 确定 及 Laue 和 群 对 称 性 等 。 
X-PLOR 是 适用 于 计算 结构 生物 学 的 程序 系统 ,通过 经 验 能 量 困 数 及 实验 数据 的 限定 ,进行 
大 分 子 空间 构象 的 开发 ,该 程序 主要 用 于 对 X- 射 线 衍 射 数 据 及 NMR 核 磁 共 振 数 据 的 分 析 。 
优化 重 日 质 结晶 条 件 \ 快 速 处 理 品 体 衍 冉 数据 是 目前 集 日 质 品 体 结构 分 析 的 两 大 难题 ; 发 展 
高 通 量 的 重 晶 结晶 技术 和 高 可 靠 性 的 结构 解析 技术 ,是 当前 结构 生物 学 的 重要 任务 。 随 大 
品 体 结构 的 运算 法 则 和 计算 机 科学 的 发 展 ,新 一 代 的 自动 化 分 析 软 件 将 进一步 解决 高 通 量 
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结构 分 析 的 技术 问题 ,并 将 适时 处 理 各 种 衍射 数据 和 加 快 图 形 整合 过 程 。 
(二 ) 磁 共 振 波 谱 分 析 


磁 共 振 ( nuclear magnetic resonance, NMR ) 是 以 组 成 和 蛋白质 的 最 基本 元 素 : C、N、H、0 
等 原子 的 原子 核 为 探 针 检测 蛋白 质 的 结构 信息 的 。 而 原子 核 自 放量 子 数 I=12 的 核 : 1H、 
13C .15N 是 多 维 磁 共振 检测 的 主要 对 象 。 在 外 加 静 磁 场 Hu, 即 恒定 超 导 磁 场 的 作用 下 ,这 些 
核 自 旋 量 子 数 不 为 零 的 原子 核 会 发 生 能 级 分 裂 。 如 果 同 时 将 射频 磁场 卫 作 用 到 原子 核 系 统 
上 , 当 射 频 场 频 率 w 满 足 关系 式 : w= y Hu, 原子 核 将 吸收 射频 场 能 量 从 低能 级 跃迁 到 高 能 
级 。 这 种 共振 跃迁 现象 就 是 磁 共 振 现象 。 上 述 关系 式 即 为 磁 共 振 条 件 。 式 中 y 为 旋 磁 比 。 
不 同 的 原子 核 的 旋 磁 比 不 同 ,因而 1H,13C,1SN 的 磁 共 振 频 率 不 同 ,所 以 有 磁 共 振 氨 谱 、 碳 
谱 、 氮 谱 之 分 。 对 蛋白质 溶液 样品 进行 各 种 类 型 的 同 核 或 异 核 多 维 磁 共振 实验 ,并 由 这 些 实 
验 所 提供 的 磁 共 振 波 谱 信息 ,建立 用 于 溶液 中 蛋白 质 三 维 结构 计算 的 磁 共 振 数 据 文 件 ,这 是 
多 维 磁 共振 方法 确定 溶液 中 重 日 质 三 维 结构 的 思想 。 

目前 ,用 NMR 测 定 蛋白 质 结 构 的 数据 处 理 涉 及 许多 复杂 的 算法 。 磁 共振 波谱 的 谱 峰 包 
含有 相当 丰富 的 与 蛋白 质 分 子 结构 有 关 的 波谱 信息 ,它们 由 波谱 参数 表示 。 此 过 程 中 首先 
是 将 磁 共 振 的 信号 经 过 傅 里 叶 变 换 转 换 为 不 同 的 峰值 ,然后 采集 各 种 不 同 的 峰 组 成 图 谱 , 并 
第 选 出 具有 特定 结构 特征 的 图 谱 。 这 些 过 程 第 用 NMRPipe 和 SPARKY 软 件 ( http: //www.cgl. 
ucsf.edu/home/sparky/ ) 处 理 , 也 使 用 DGI 、XEASY、DYANA 和 GARANT 等 软件 分 析 计 算 蛋 白 
质 三 维 结构 、 侧 链 或 骨架 结构 。 即 在 具体 计算 重 日 质 绪 构 过 程 中 ,无论 是 运用 哪 一 个 基于 距 
离 几 何方 法 的 计算 软件 ,都 是 将 磁 共 振 波 谱 提 供 的 NOE 和 J 看 合 常 数 数据 转换 为 用 于 结构 
计算 的 距离 约束 、 二 面 角 约束 、 手 性 等 结构 数据 文件 ,其 中 也 包括 形成 氧 键 的 原子 对 之 间距 
离 的 约束 ; 结合 从 和 蛋白质 氨基 酸 组 分 得 到 的 蛋白 质 分 子 中 的 键 角 、 键 长 . 手 性 等 经 验 数据 ， 
建立 约束 息 阵 。 然 后 ,将 距离 空间 的 约束 矩阵 转换 为 坐标 空间 的 和 矩阵。 接着 ,由 坐标 空间 矩 
阵 构 建 蛋 白质 三 维 结构 的 初始 结构 模型 。 最 后 ,运用 模拟 退火 等 计算 方法 对 初始 结构 进行 
优化 ,并 由 分 子 动力 学 进行 能 量 最 小 化 计算 ,由 此 得 到 一 组 收敛 的 重 日 质 三 维 结构 的 空间 坐 
标 , 即 获得 由 磁 共 振 实 验 数 据 导 出 的 蛋白 质 溶液 三 维 结构 的 一 系列 可 能 的 构象 集合 。 

与 X- 衍 射 晶 体 分 析 技 术 相 比较 , NMR 技 术 尽 管 在 蛋白质 结构 测定 中 限制 较 大 ,但 其 无 
需 制 备 唱 体 , 故 NMR 法 常用 于 解析 无 法 获得 晶体 的 蛋白质 或 膜 重 白 的 结构 。 目 前 , NMR 技 
术 主 要 用 于 解析 分 子 量 在 20kD 以 下 且 水 溶性 很 好 但 培养 晶体 困难 的 蛋白 质 结构 。 由 于 其 分 
析 过 程 可 在 溶液 状态 进行 ,从 而 得 到 和 蛋白质 分 子 在 溶液 中 的 构象 ,条件 更 接近 于 和 蛋 日 质 的 生 
理 状态 ,是 研究 蛋白 质 的 折 释 和 构象 稳定 性 对 生理 环境 温度 . 盐 浓度 、pH 等 环境 条 件 变化 敏 
感性 的 重要 工具 。 在 溶液 环境 中 ,可 以 观察 到 整个 结构 表面 的 一 些 松 散 肽 链 的 运动 性 ,而 重 
白质 的 功能 部 位 往往 是 在 整个 结构 的 表面 ,因此 , NMR 是 研究 蛋白 质 与 蛋白 质 、 蛋 白质 与 小 
分 子 配 体 间 相互 作用 的 动力 学 特征 和 性 质 的 有 效 手 段 。 随 着 NMR 技 术 的 发 展 , NMR 所 用 磁 
场 强 度 的 增强 ,计算 资源 的 提升 和 分 析 软 件 的 进一步 发 展 完 善 , 磁 共振 技术 在 和 焦 白 质 结构 解 
析 领 域 的 应 用 会 越 来 越 广泛 。 


(三 ) 冷冻 电子 显微镜 技术 
冷冻 电子 显微镜 ( cryoelectron microscopy ) 技术 已 成 为 研究 生物 大 分 子 结构 与 功能 的 强 
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有 力 手 段 。 该 技术 大 致 包括 样品 制备 .数据 采集 和 图 像 处 理 以 及 三 维 重 构 等 环节 ,其 确定 三 
维 结构 的 方法 主要 有 电子 品 体 学 方法 . 单 粒 子 重 构 法 和 电子 断层 成 像 技 术 。 这 种 方法 采用 
高 压 快 速 液 氮 冷冻 方法 使 样品 包 埋 在 玻璃 态 的 水 环境 中 ,这 种 环境 也 接近 于 生理 状态 ,减少 
了 样品 在 制备 过 程 中 的 结构 破坏 ,以 便 观察 生物 大 分 子 在 天 然 状 态 下 的 结构 ; 同时 冷冻 的 速 
度 极 快 ,这 就 有 可 能 把 细胞 在 其 生理 活动 (例如 ,肌肉 收缩 ) 的 某 些 特定 时 刻 固定 下 来 ,并 显 
示 此 时 的 结构 特点 ,进而 可 通过 不 同 功能 状态 的 瞬时 构象 变化 来 研究 生物 分 子 的 功能 。 故 
冷冻 电镜 获得 的 是 处 于 天 然 状 态 下 未 经 染色 的 分 子 的 二 维 投影 像 。 将 样品 进行 不 同 角度 倾 
笠 所 获得 的 数据 进行 综合 分 析 ,并 依据 样品 的 不 同 特性 使 用 不 同 的 重 构 技 术 获 得 分 子 的 结 
构 ,在 此 基础 上 观察 多 种 成 分 的 图 像 变化 ,可 追踪 生物 大 分 子 的 装配 及 其 动力 学 过 程 。 

冷冻 电子 显微镜 技术 主要 用 于 和 蛋白 质 及 其 复合 物 的 外 部 形 貌 观察 ,可 用 不 同 的 方法 对 
均一 的 (如 膜 重 日 的 二 维 晶 体 , 二 十 面体 对 称 的 病毒 等 对 称 结构 ) 和 不 均一 的 (如 核糖 体 等 ) 
样品 进行 三 维 结构 重 构 ,同时 可 应 用 的 蛋白质 分 子 大 小 范围 很 宽 。 使 用 冷冻 电子 显微镜 技 
术 观 察 生物 大 分 子 的 空间 构象 需要 借助 生物 信息 学 方法 和 模式 识别 ( pattern recognition )、 数 
据 库 分 析 、 同 源 建 模 ( homology modeling ) 等 技术 的 整合 。 由 冷冻 电镜 技术 所 获得 的 蛋白 质 
三 维 结构 与 X 射 线 品 体 技术 得 到 的 结构 非常 相似 ,而 且 其 信 噪 比 非常 低 , 并 且 适 合 于 膜 蛋白 
的 分 析 。 可 用 于 处 理 和 分 析 数 据 的 软件 有 CCP4 , CNS, EM3D. Bsoft, EMStudio, IMAGIC, 
此 技术 目前 应 用 面 并 不 太 广 ,也 没有 形成 相应 的 数据 库 。 各 种 相关 技术 的 发 展 和 整合 将 为 
研究 生命 现象 与 本 质 提供 强 有 力 的 技术 手段 。 


(四 ) 化 学 交 联 (cross—linking) 法 


近年 来 出 现 了 一 种 可 以 获得 和 蛋白质 结构 信息 以 及 和 蛋白质 相 互 作用 信息 的 新 方法 一 化 学 
AL HR ( cross-linking ) 3X , BI fE £& A 质 样 品 中 加 入 适量 的 化 学 交 联 剂 ( chemical cross—linker ), 
使 生日 质 内 部 或 不 同 重 白质 之 间 发 生 交 联 反 应 ,实现 对 蛋白质 中 各 个 氨基 酸 侧 链 或 官能 
团 空间 位 置 的 定位 ,再 应 用 现代 质谱 法 鉴定 氨基 酸 侧 链 或 官能 团 , 获 得 氨基 酸 或 官能 团 的 
相对 空间 距离 ,构建 重 白 质 的 空间 结构 及 蛋白质 复合 体 亚 基 的 空间 排列 位 置 ,以 及 获得 重 
白质 相互 作用 的 信息 。 通 常 采 用 MS2Assign 和 MS2PRO 软 件 对 交 联 肽 段 的 MS/MS 进行 分 
Br; SearchXLinks 软件 可 用 于 和 绰 白 质 二 硫 键 质谱 分 析 ; 利用 general protein/mass analysis for 
windows( GPAMW ) 软件 对 MALDI-TOFMS 或 ESI-MS 对 水 解 后 的 混合 肽 段 进行 分 析 ; 还 有 
其 他 的 软件 可 用 于 化 学 交 联 质谱 数据 分 析 如 Automated Spectrum Assignment Program ( ASPA ) 
VirtualMSLab 等 。 化 学 交 联 法 与 质谱 法 的 有 机 结合 有 如 下 优点 : 中 被 分 析 蛋 白质 或 蛋白 质 复 
合体 的 分 子 量 ( molecular weight, MW ) 从 理论 上 说 是 无 限 的 ,如 果 被 分 析 物 的 分 子 量 过 大 ， 
可 以 采用 Bottom-up 分 析 策 略 ; C) 质 谱 分 析 速 度 十 分 迅速 ,可 以 极 大 缩短 分 析 时 间 ; @) 质 谱 检 
测 灵敏 度 极 高 ,被 分 析 的 蛋白 质 只 需 飞 摩尔 ( femtomole ) 级 的 量 就 可 满足 实验 要 求 ; ORF 
获得 溶液 中 重 日 质 三 维 结构 信息 ,并 可 鉴定 出 蛋白 质 的 可 变 结构 域 ; (3) 化 学 交 联 法 结合 质谱 
法 在 腊 重 日 研究 领域 的 应 用 与 其 他 传统 方法 相 比 有 其 独特 的 优势 。 





二 、 蛋 白质 结构 数据 库 >) 


重 日 质 三 维 结构 数据 库 是 一 类 重要 的 生物 分 子 信息 数据 库 , 是 结构 生物 信息 学 的 关键 
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( protein data bank, PDB ) E4735 A 2813 EGEZRJSCOPAICATH ,及 存储 次 级 结构 的 targetDB、 
FSSP、DSSP 等 。 


(一 ) 蛋 日 质 三 维 结构 数据 库 PBD 


PDB 是 用 于 保存 生物 大 分 子 结构 数据 的 常用 数据 库 ,由 美国 Brookhaven 国 家 实验 室 于 
1971 年 创建 。1998 年 10 月 为 适应 结构 基因 组 和 生物 信息 学 研究 的 需要 ,由 美国 国家 科学 基 
EFENA 能源 部 和 卫生 研究 院 资 助 成 立 了 结构 生物 学 合作 研究 协会 ( research collaboratory 
for structural bioinformat-ics, RCSB )。 之 后 PDB 数据 库 的 维护 主要 是 由 该 组 织 负责 , 目前 主要 
成 员 为 拉 特 格 斯 大 学 ( Rutgers University 人 圣地 亚 哥 超级 计算 中 心 (San Diego supercomputer 
center, SDSC ) 和 国家 标准 化 研究 所 ( national institutes of standards and technology, NIST )。 
PDB 数据 库 网 站 主页 见 图 4-2。 
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图 4-2 PDB(Protein Data Bank) 数据 库 网 站 主页 


PDB 中 包含 了 通过 X 射 线 单 唱 衍射 、 磁 共振 .电子 衍射 等 实验 手段 确定 的 和 蛋白质、 多糖、 
核酸 等 生物 大 分 子 的 三 维 结构 数据 。 目 前 PDB 数据 库 的 信息 每 周 进行 更 新 ,截止 到 2011 年 
11 月 1 日 , PDB 总 共 收 录 了 76 970 条 结构 数据 ,其 中 ,收录 和 蛋白质 结构 为 71 309 条 ,收录 核酸 
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3326 条 。 详 细 数 据 见 表 4-3。 
表 4-3 ”PDB 数据 库 收录 条 目 一 览 表 


Te ITAN 
ZEN DE OO ee 总 数 
E 蛋白 质 核酸 蛋白 /核酸 复合 物 其 他 | 
X-H RATIT 62 894 1323 3053 2 67272 
NMR 7970 960 179 7 9116 
电镜 262 22 97 0 381 
其 他 133 4 5 13 155 
总 数 71 300 2312 3335 23 76 970 


PDB 数据 库 以 文本 文件 的 方式 存放 数据 ,每 个 分 子 各 用 一 个 独立 的 文件 存放 。 文 件 中 
除了 原子 坐标 外 ,还 包括 物种 来 源 、 化 合 物 名 称 、 结 构 以 及 有 关 文 献 等 基本 注释 信息 。 此 
外 ,还 给 出 分 辨 率 、 结 构 因 子 、 温 度 系数 、 重 日 质 主 链 数目 、 配 体 分 子 式 、 金 属 离子 、 二 级 结 
构 信 息 、 二 硫 键 位 置 等 和 结构 有 关 的 数据 。 除 了 能 以 文本 编辑 的 方式 查看 这 些 数 据 外 ,还 
可 以 利用 一 些 图 形 软 件 直 观 观察 重 日 质 的 三 维 结构 ,例如 VMD、Jmol、Swiss-PDBviewer 太 
RasMol 等 。 

在 PDB 中 收集 的 结构 数据 都 有 一 个 唯一 的 PDB-ID , 它 包 含 4 个 字符 ,由 大 写字 母 和 数字 
组 成 (如 血红 和 蛋白 的 PDB-ID 为 4HHB )。PDB-ID 编 码 系 统 较 复杂 ,没有 特征 明显 的 顺序 ,但 
相关 的 结构 数据 的 PDB-ID 仍 然 有 明显 的 联系 。PDB 数 据 库 允 许 用 户 用 各 种 方式 以 及 布尔 
逻辑 组 合 ( AND、OR 和 NOT ) 进行 检索 ,可 检索 的 字段 包括 功能 类 别 、PDB 人 代码、 名称 、 作 着 、 
空间 群 、 分 辨 率 , 来 源 \ 人 库 时 间 、 分 子 式 、 参 考 文献 .生物 来 源 等 项 。 用 户 不 仅 可 以 得 到 生物 
大 分 子 的 各 种 注释 坐标 三维 图 形 ,并 能 得 到 一 系列 与 PDB 相关 数据 库 的 链接 ,包括 SCOP、 
CATH, Medline, ENZYME, SWISS-3DIMAGE 等 。 

作为 主要 存储 重 白 质 结构 的 数据 库 , PDB 还 提供 多 种 界面 交互 方式 实现 用 户 对 PDB 
数据 的 浏览 ,可 通过 三 种 查询 方式 对 其 主要 服务 需 站 点 SDSC、Rutgers NIST 和 其 镜像 网 
站 进行 查询 ,也 可 进行 相应 数据 的 下 载 操作 。 数 据 库 的 查询 方式 ( 表 4-4 ): (D1999 年 2 月 
建立 的 SearchLite 是 一 个 关键 词 检索 工具 ,在 该 界面 的 对 话 框 内 键入 与 生物 大 分 子 相 关 
的 关键 词 ,点 “Search” 或 者 回 车 键 即 可 ,如 键入 “protein kinase”, 则 可 以 查询 所 有 包含 集 
白 激 酶 的 结构 。PDB 中 所 有 原文 资料 、 存 储 和 发 布 日 期 以 及 一 些 实验 数据 可 以 通过 简单 
的 浏览 或 结构 浏览 得 到 ; @SearchFields 是 1999 年 5 月 建立 的 一 个 惯用 浏览 方式 ,可 以 用 化 
合 物 、 作 者 引用 、 序 列 ( 通 过 FASTA 搜 索 )、 存 储 日 期 或 发 布 日 期 来 查询 。 当 用 SearchLite 或 
SearchFields 浏 览 时 ,在 “Query Result Brower” 的 界面 可 得 到 一 些 综合 言 息 及 图 表 中 的 详 
细 信 息 , 并 可 下 载 PDB 中 系列 数据 文件 ,下 载 的 数据 以 纯 文本 格式 或 压缩 文件 的 形式 保存 。 
“Struture Explorer” 界面 提供 每 个 重 日 质 结构 的 信息 以 及 与 许多 大 分 子 结构 数据 库 的 交叉 
链接 。 
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表 4-4 数据 库 查 询 方式 









SearchLite 


SearchFields 


Status 


PDB 所 包 


RS 


含 的 任意 词 或 词组 


1 .一般 信息 : PDB 编码 ,作者 以 用 , 链 型 (和 蛋白质.DNA 等 ), PDB HEADER ,试验 方法 ,存储 
或 发 布 日 期 ,复合 物资 料 , BC 数字 或 上 下 文 检索 

2. 序列 或 二 级 结构 : 链 长 FASTA 检索 , 短 序列 方式 和 二 级 结构 内 容 检索 

3. 晶体 试验 信息 : 溶剂 ,空间 基 团 , 单 体 相关 参数 


PDB 编码 ,存储 信息 作者 ,题目 ,存储 日 期 或 发 布 日 期 


e 





【 例 4-1 ] 在 PDB 数据 库 中 检索 人 类 驱动 蛋白 相关 的 结构 信息 和 可 视 化 过 程 (图 4-3 )。 
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Biological Assembly Image for 1BG2 
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图 4-3 在 PDB 数据 库 中 搜索 人 类 驱动 蛋白 结构 的 结果 


询 结 末 页面 的 一 个 检索 条 目 1BC2 ,打开 其 链接 页 面 ; 在 结果 页 面 右 侧 列表 信息 中 查看 生物 

结构 信息 面板 “Biological Assembly” 部 分 ; 点 击 “Biological Assembly” 面板 查看 1BC2 疆 吉 构 
KIC aa JavaScripti Ý ); 在 结果 页 面 中 ,可 查看 提供 该 重 白质 结构 的 作者 信息 ( Deposition 
Summary ) 及 实验 细节 信息 ( Experimental Details, 包括 分 辨认 resolution .空间 ff space eroup Fil 
近 体 的 单位 晶 胞 尺度 unit cell dimension 等 )。 男 外 ,还 可 以 链接 到 其 他 一 些 浏览 结构 信息 的 
可 视 化 工具 如 Jmol 、Kiosk 等 进行 精细 结构 的 观察 和 分 析 。 


(二 ) 蛋 日 质 结构 分 类 数据 库 SCOP 


集 日 质 结 构 分 类 数据 库 ( structural classification of protein, SCOP ) 是 对 已 知 结构 蛋白 质 进 
行 分 类 的 数据 库 (图 4-4 ), 根 据 不 同和 蛋白 的 氨基 酸 组 成 及 三 级 结构 的 相似 性 ,详细 描述 已 知 
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结构 蛋白 间 的 功能 及 进化 关系 ; SCOP 数 据 库 的 构建 除了 使 用 计算 机 程序 外 ,主要 依赖 于 人 工 
验证 。SCOP 数 据 库 建 立 于 1994 年 ,数据 库 中 信息 主要 由 Alexdi G Murzin 和 其 同事 每 年 更 新 。 


Structural Classification of Proteins = 





Welcome to SCOP: Structural Classification of Proteins. 
1.75 release (June 2009) 


38221 PDB Entries. 1 Literature Reference. 110800 Domains. (excluding nucleic 
acids and theoretical models). 
Folds, superfamilies, and families statistics 





New folds superfamilies families. 
List of obsolete entries and their replacements. 


Authors. Alexey G. Murzin, John-Marc Chandonia, Antonina Se Howorth, Loredana Lo Conte, Bartlett G. Ailey, 
Steven E. Brenner, Tim J. P. Hubbard, and Cyrus Chothia. sco i c. 

Reference: Murzin A. G., Brenner S. E., Hubbard T., Chothia C. (1995). SCOP: a structural classification of proteins 
database for the investigation of sequences and structures. J. Mol. Biol. 247, 536-540. [PDF] 

Recent changes are described in: Lo Conte L., Brenner s. E., Hissa T. 3. P., Chothia C., Nurzin A. (2002). scop database 
in 2002: refinements accommodate structural genomics. Muci Aes. 1) 64-267. [PDF], 

Andreeva A., Howorth D., Brenner S.E., Hubbard T. J. P., Chothia C s es AG. ^ (2004). scop database in 2004: refinements 
integrate structure and sequence family data. | id Res, 32:D226-D229. [PDF], and 

Andreeva À., Howorth D., Chandonia J.-H, Bremer SE, hbbard T. J.P., need Nurzin vin (2007). Data growth and its 
impact on the SCOP ditehese: new dave Pr Nuci. Acids Res. 2008 36: D419-D425, doi:10.1093/nar/gkm993 [PDF]. 
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e Want to help us design and build the next generation of SCOP and ASTRAL? 
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Access methods 


e Enter scop at the top of the hierarchy 
e Keyword search of SCOP entries 
SCOP parseable files 





* 
s P R 
* pre-SCOP — preview of the next release 


图 4-4 SCOP 数据 库 主 页 


目前 SCOP 数 据 库 的 最 新 版 本 是 2009 年 6 月 发 布 的 1.75 版 ,在 该 版 本 中 共 含 有 38 221 个 已 
有 结构 的 蛋白 以 及 110 800 个 蛋白 结构 域 , 表 4-5 为 SCOP 数 据 库 最 新 版 本 中 详细 的 信息 统计 。 


表 4-5 SCOP 数 据 库 中 1.75 版 本 中 详细 信息 
蛋白 质 种 类 ( Class) HFM Folds) 超 家 族 的 数目 ( Superfamilies ) 家 族 的 数目 ( Families ) 





4 a 螺旋 和 蛋白 284 507 871 
& B TBA A 174 354 742 
o MEA B HÆ 147 244 803 
o Rein B Dre 376 552 1055 
复合 结构 域 重担 66 66 89 
膜 重 日 58 110 123 
Ads 90 129 219 
总 和 1195 1962 3902 


在 SCOP 数 据 库 中 ,按照 从 简单 到 复杂 的 顺序 对 重 白 进行 分 类 ,分 类 基于 四 个 层次 ,位 于 
分 类 层次 顶部 的 是 类 ( class ), 之 后 依次 为 家 族 ( family ), 超 家 族 ( super family )、 折 合子 (fold )、 
集 日 质 结构 域 ( protein domain )、 单个 PDB 和 蛋白 结构 记录 。SCOP 数 据 库 可 以 通过 其 分 级 结构 
导航 进行 浏览 ,用 关键 字 、PDB 标 志 码 查询 ,或 通过 一 个 重 晶 质 序列 进行 同 源 搜索 。 在 各 个 
分 类 层次 中 ,家 族 用 来 描述 相近 的 和 蛋白质 进化 关系 ; 超 家 族 用 来 描述 远 源 的 进化 关系 ; 折 
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生子 用 来 描述 空间 的 几何 关系 。 在 SCOP 数 据 库 中 结构 域 又 被 分 为 以 下 几 类 : 全 a 螺旋 ,全 
BITS, oA PITH, o 螺旋 加 B 折 全 以 及 复合 结构 域 。 除 此 之 外 ， ane 
元 余 的 ASTRAIL 序 列 库 , 这 个 库 通常 被 用 来 评估 各 种 序列 比 对 算法 ; 同时 SCOP 还 提供 一 
PDB-ISL 中 介 序 列 库 , 通 过 与 这 个 库 中 序列 的 两 两 比 对 ， TRE SREE 
HEY BRT MANE AZAR SIE fs RP. SCOP ACHE Fei 0$ n] DA 22 FI] PDB, SP3D, 
NCBI Entrez 等 数据 库 来 显示 原子 坐标 ,蛋白 序列 及 同 源 蛋白 信息 。SCOP 对 多 方 用 户 都 具有 
广泛 的 用 途 , 全 世界 不 同 地 区 具有 其 相应 的 镜像 站 点 。 探 究 与 所 人 研究 的 生日 质 相 近 的 结构 
空间 区 域 时 ,和 果 白质 的 分 类 层次 有 助 于 对 香 曰 质 进 行 定 位 ,而 且 数 据 库 提供 的 交叉 链接 , 方 
便 对 预测 结果 进行 生物 学 解释 。 


(=) 蛋白 质 分 类 数据 库 CATH 


一 个 代表 性 重 日 质 结构 分 类 数据 库 是 由 伦敦 大 学 于 1993 年 开发 和 维护 的 CATH( 图 

4-5 ), re ote NIME IA RAUM class, 
C); SAYA PY PYAR architecture, A ); 重 日 的 拓扑 结构 (topology, T ); 8 A Mi [8] 88 
家 族人 homologous superfamily, H ), SCOP 注 重 从 和 蛋 日 质 进 化 角度 进行 分 类 ,而 CATH 偏 重 于 从 
结构 角度 对 重 日 分 类 ,同时 数据 库 对 重 白 进行 分 类 时 既 使 用 计算 机 程序 ,也 进行 人 工 检 查 。 





f$ Home 


Welcome to CATH New in CATH v3.4 New in Gene3D 10.2 


CATH is a manually curated classification of Gene3D 10.2 (released Sep 2011) uses 
protein domain structures. Each protein has CATH domains to provide 16,118,154 

been chopped into structural domains and structural annotations for 14,963 305 protein 
assigned into homologous superfamilies sequences. The latest release also offers a 
(groups of domains that are related by number of new features: 

evolution). This classification procedure uses 
a combination of automated and manual 
techniques which include computational 
algorithms, empirical and statistical 
evidence, literature review and expert 
analysis. 


e Interaction Network Data 
e Interactive Graphical Representations 
« Genome Comparisons 





Search the CATH database >> 


Find out more about CATH >> 


Using CATH CATH Tools About CATH 


Search Find My Sequence Release Statistics 


crowse Find My Structure 


图 4-5 CATH 数 据 库 主 页 
目前 CATH 数 据 库 最 新 版 本 是 2010 年 发 布 的 3.4 版 ,该 版 本 中 含有 152 920 个 重 白 结构 域 ， 
40 个 二 级 结构 构架 ,1282 个 拓扑 结构 以 及 2549 个 同 源 蛋 白质 超 家 族 。 同 PDB 和 蛋白 结构 数据 
库 相 似 , 每 一 个 和 蛋白 都 会 有 一 个 不 重复 的 标号 ,在 CATH 数 据 库 中 表现 为 不 同 分 类 层次 都 有 
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CATH 号 ,并且 不 同 水 平 的 CATH 号 的 标准 不 同 。 例 如 : 位 于 CATH 数 据 库 最 底层 分 类 的 重 日 
种 类 类 别 , 它 的 CATH 号 的 范围 为 1~4, 每 一 类 之 间 的 间 陋 量 为 1 ; 而 其 他 类 别 之 间 的 间 隅 量 
为 10。 图 4-6 是 CATH 数 据 库 中 各 个 类 别 的 层次 划分 结构 。 与 SCOP 不 同 的 是 , CATH 把 蛋白 
质 分 为 4 类 , 即 全 a 、 全 B ，a-B(a/B 型 和 aw+B 型 ) 和 低 二 级 结构 类 。 低 二 级 结构 类 是 指 
二 级 结构 成 分 含量 很 低 的 蛋白 质 分 子 。CATH 数 据 库 的 第 二 个 层次 为 由 a 螺旋 和 B TBI 
成 的 超 二 级 结构 排列 方式 ,而 不 考虑 它们 之 间 的 连接 关系 。 形 象 地 说 ,就 是 重 白 质 分 子 的 构 
架 , 如 同 建筑 物 的 立柱 横梁 等 主要 部 件 , 这 一 层次 的 分 类 主要 依靠 人 工 方法 。 第 三 个 层次 
为 拓扑 结构 , 即 二 级 结构 的 形状 和 二 级 结构 间 的 联系 。 第 四 个 层次 为 结构 的 同 源 性 , 它 是 先 
通过 序列 比较 然后 再 用 结构 比较 来 确定 的 。 除 了 以 上 提 到 的 四 种 分 类 外 , CATH 数 据 库 还 
有 另外 一 种 分 类 层次 为 序列 层次 ,在 这 一 层次 上 ,只 要 结构 域 中 的 序列 同 源 性 大 于 35% ,就 
被 认为 具有 高 度 的 结构 和 功能 的 相似 性 ,从 而 被 划分 为 在 同一 序列 家 族 ( sequence family ) 中 ; 
对 于 较 大 的 结构 域 , 则 至 少 要 有 60% 与 小 的 结构 域 相同 。 

主要 包括 : a, a AB, B, “TIMP EH” 结构,“ 三 明治 ”结构 ,“ 肉 冻 卷 ” 结构 , 黄 素 
SEAL, B -内 酰胺 酶 结构 CATH 数 据 库 可 以 通过 英国 伦敦 大 学 的 生物 分 子 结 构 和 模拟 实验 
室 的 网 络 服务 器 来 实现 用 户 数 据 的 查询 和 分 析 。 在 CATH 首 页 右上 和 角 的 搜索 框 内 输入 待 
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查询 关键 字 , 点 击 “Quick Search" 查询 。CATH 给 用 户 提 供 了 满足 不 同 需求 的 数据 查询 方 
式 , 具 体 包括 : 

(1 ) 搜 索 一 个 特定 结构 域 信 息 ,需要 链接 至 “PDB code/Domain ID search”, FA P? 38 RA 
目 可 以 为 CATH domain ID, CATH Chain ID 或 者 PDB code, 输 入 搜索 条 目 关键 字 ,点 击 首页 右 
上 角 的 “Quick Search” 或 者 转 到 “Search CATH by ID/sequence/text" 91 [fi , f| H] "Search by 
ID/Keywords” 模 块 进行 搜索 。 

(2 ) 搜 索 与 用 户 给 定 结构 或 功能 关键 字 相 关 的 信息 ,需要 链接 至 “Text Search” 实 现 文 
本 搜索 查询 。 用 户 输 入 的 搜索 关键 字 可 以 是 描述 功能 起 源 的 “chaperone ”或 结构 相关 的 
“helixz"。 将 搜索 关键 字 输 入 到 搜索 框 , 点 击 首页 右上 角 的 "Quick Search ”按钮 进行 查询 或 
者 转 到 “Search CATH by ID/sequence/text" 91 [fi , 41] H] "Search by ID/Keywords ”模块 进行 搜索 。 

(3 ) 搜 索 CATH 不 同 层 次 结构 相关 的 信息 ,需要 链接 至 “Browse the CATH hierarchy” ,可 
查看 数据 库 数据 分 类 信息 。 也 可 通过 “Search CATH by ID/sequence/text" 91 [fij , iil; "Browse" 
按钮 链接 至 “CATH hierarchy” (14-7 )。 
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图 4-7 CATH 数 据 库 分 类 查询 主页 


其 次 , CATH 数 据 库 还 提供 了 分 析 模 块 , 可 以 提交 感 兴趣 的 查询 条 目 , CATH 数 据 库 将 为 
该 查询 条 目 提供 相关 的 详细 的 结构 和 相应 的 功能 信息 。 

在 CATH 数 据 库 主 页 上 ,选择 “Tools” ,进入 “CATHEDRAL Server” 分 析 服 务 器 ,允许 用 
户 根据 PDB ID 标识 或 CATH code 编 码 ,进行 相应 的 结构 和 功能 分 析 。 如 用 户 可 以 从 CATH 数 
据 库 中 获悉 给 定 和 蛋白 质 FtsA( pdbid: le4f ) 在 不 同 物种 中 的 进化 相关 性 以 及 与 之 密切 相关 
的 生物 学 功能 信息 。 首 先 ,检索 CATHEDRAL Server 服 务 器 获取 该 蛋白 质 上 所 有 的 结构 域 、 
结构 域 家 族 和 重 白 质 超 家 族 信息 。 需 要 指出 的 是 ,对 于 一 个 序列 已 知 、 结 构 未 知 的 和 蛋白质 ， 
CATH 数 据 库 可 以 根据 其 结构 比较 算法 将 感 兴趣 的 蛋白质 与 CATH 数 据 库 中 的 背景 蛋白 质 进 
行 相似 结构 搜索 ,最 终 确 定 出 该 蛋白质 的 结构 和 相应 的 结构 域 信 息 。 然 后 ,根据 蛋白质 FtaA 
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所 有 结构 域 所 在 MEARE. BL , 用 户 可 以 获悉 该 重 白 质 处 于 核酸 转移 酶 结构 域 家 族 (CATH 
code: 3.30.420.40 ) 中 。 甚 次 ,利用 CATH 和 Gene3D ,检索 CATH 超 家 族 3.30.420.40 所 包含 的 所 
有 结构 域 信息 。 在 CATH 主 页 上 输入 结构 域 编码 ( le4f+ 结 构 域 标识 / 链 标识 ), 检 索 获 取 相 应 
的 结构 域 信息 ; 在 H-level 同 源 超 家 族 层 , 可 以 找到 3.30.420.40, 点 击 进 入 可 以 查看 该 同 源 超 
家 族 中 其 他 已 知 结构 域 的 结构 信息 ; 通过 结构 域 链接 ,可 以 获取 其 结构 信息 和 特定 的 分 子 细 
胞 的 功能 信息 等 。 有 具体 内 容 可 登录 到 数据 库 站 点 查看 ,这 里 不 作 歼 述 


(四 ) 其 他 常用 蛋白 质 结 构 数据 库 


1. SWISS-MODEL 数 据 库 SWISS-MODEL 数 据 库 收 录 的 蛋白 质 结构 都 是 使 用 SWISS- 
MODEL 同 源 建 模 ( homology—modelling ) 对 Swiss-Prot 和 蛋白 序列 数据 库 或 其 他 蛋白 质 序列 进行 
目 动 同 源 建 模 所 得 到 的 结构 数据 ， Wi 建立 该 数据 库 的 主要 目的 在 于 
提供 最 新 的 蛋白 质 3D 结 构 注 释 信 息 . . 

至 2011 年 6 月 , SWISS-MODEI 数 据 库 共 收 录 数 据 3 143 3657& Es Y Uni Prot fii He P 
2 278 333 条 不 同 的 蛋白 质 序列 。SWISS-MODEI 数 据 库 允许 用 户 对 数据 库 中 的 模型 进行 质 
Hr CPE? , 人 允许 用 户 搜索 男 外 一 种 可 变 模 板结 十 构 ( alternative template structures ), 用 户 还 可 以 使 
用 SWISS-MODEL 工 作 平 台 ( http: //swissmodel.expasy.org/workspace/ ) 构 建生 白质 的 三 维 模型 。 
最 后 对 结构 模型 的 注释 信息 ,包括 功能 信息 ,可 通过 与 其 他 数据 库 进 行 交 义 链接 得 到 ,通过 
这 些 链 接 , 用 户 就 可 以 在 和 集 日 质 序列 数据 库 和 结构 数据 库 之 间 自 由 切换 。 

2. 中 国 集 日 质 结构 数据 库 ”中 国 和 集 日 质 结构 数据 库存 储 了 中 国人 提交 的 焦 日 质 的 PDB 
oa http: //lifecenter.sgst.cn/enpdb/en/pdbHome.do ). #% 4:20094F7 H ,该 数据 库 中 总 记录 数 
58706 条 。 点 击 主页 (图 4-8 ) 中 左 侧 对 应 链接 可 进行 数据 沁 ae Fak 


are 4 SF THAAD PA 





久生 物 信息 科学 数据 共享 平台 @ 所 有 数据 库 | 请 第 入 关键 词 E 
S Sea Sharir 9 Pl ytfr ation 
基础 数据 资源 ”| 特色 数据 资源 在 绪 计 算 资 源 数据 资源 索 53| | 关于 我 们 EHR R) 
PRISAMANRER 简介 
* 简介 中 国 蛋 白质 结构 数据 库存 储 了 蛋白 质 和 复杂 姐 件 的 结构 信息 。 


^ SR 我 们 主要 采集 的 是 中 国人 提交 的 PDB 数据 ， 并 统计 了 中 国 作 者 所 占 
的 百分比 ， 以 衡量 中 国人 在 蛋白 质 等 生物 大 分 子 三 维 空 间 结构 领域 


* ?6&iti Rl 作出 的 贡献 (3D 分 子 列表 )。FTP 站 点 上 提供 了 按 中 国 作 者 所 占 百 分 

> REFE 比 整理 的 PDB 数据 打包 下 载 。 此 外 ， 通过 Firstglance 在 线 服务 条 
统 ， 用 户 还 可 以 在 Jmol 中 浏览 蛋白 质 的 三 锥 空间 结构 ， 

蛋白 质 的 分 子 结 档 可 划分 为 四 级 ， 以 撕 述 其 不 同 的 方面 

> wwPDB e 一 级 结构 : 组成 蛋白 质 多 上 肽 链 的 线性 氨基 融 序 列 ， 

Gi pnG 。 二 级 结构 : 依靠 不 同 氮 基 珊 之 间 的 C=0O 和 N-H 基 团 | 间 的 氟 键 形成 
的 稿 定 结构 ， 主 要 为 0 螺旋 和 P 折 得， 

”PDBe e 三 级 结构 ; 通过 多 个 二 级 结构 元 素 在 三 维 空间 的 排列 所 形成 的 一 

Fil 个 看 白质 分 子 的 三 维 结构 ， 

TM * 四 级 结构 : FT NER EIE Hs VE) 间 相 互 作用 形成 具有 





功能 的 蛋白 质 复 合 物 分 子 ， 


除了 这 些 结构 层次 ， 填 白质 可 以 在 多 个 类 似 结 构 中 转换 ， 以 行 
使 其 生物 学 功能 。 对 于 功能 性 的 结构 变化 ,这 些 三 级 或 四 级 结构 通常 用 化 学 构象 进行 接 述 ,而 相应 的 结构 苇 换 就 被 称 为 构象 变化 ， 


一 级 结构 是 通过 共 价 键 ( 肽 键 ) 来 形成 ， 生 物体 中 ， 睦 键 的 形成 是 发 生 在 蛋白 质 生 物 合成 的 毛 译 步 张 。 氮 基 殴 贬 的 两 端 ， 根据 末端 自由 基 团 
的 成 分 ,分别 以 "N 末 端 "( ARSED") RCR" O BRIE") 来 表示 ， 


定义 不 同类 型 的 二 级 结构 有 不 同 的 方法 ， 最 常用 的 方法 是 通过 主 链 原 子 之 间 的 握 键 的 排列 方式 来 判断 的 。 而 在 看 白质 完 全 折 破 的 状态 下 ， 这 
ESA SIE. 


三 级 结构 主要 是 通过 结构 "非特 异性 “相互 作用 来 形成 。 烘 而 ,只 有 当 蛋 白质 结构 域 通过 "特异 性 "相互 作用 ( MOAR. SRL QUSE BOTEBUTE 
用 ) 固定 到 相应 位 置 ， 所 形成 的 三 级 结构 才能 稳定 。 对 于 细胞 外 周 蛋白 ， 二 硫 键 起 到 了 关键 的 稳定 作用 ; 而 对 于 细胞 内 雪白 质 ， 则 很 少 出 现 二 大 
键 ， 因 为 原生 质 中 是 还 原 环 境 ， 不 利于 二 破 键 的 形成 。 


图 4-8 中 国 蛋 白质 结构 数据 库 主页 


A4 第 四 章 ” 蛋 日 质 结构 分 析 
4 PROTEIN STRUCTURE ANALYSIS 


该 数据 库 可 根据 重 白 质 的 ID 对 数据 进行 浏览 ,包括 文献 名 、 作 者 名 及 相应 PubMed ID 等 
内 容 , 还 可 以 用 Jmol 查 看 该 蛋白 质 的 结构 。FTP 站 点 上 提供 了 按 中 国 作 者 所 占 百分比 整理 的 
PDB 数据 的 打包 下 载 。 

随 着 测序 技术 和 预测 方法 不 断 发 展 ,涌现 了 很 多 蛋白质 结 构 相 关 的 数据 库 。 这 些 数据 
库存 储 蛋 白质 序 列 、 分 类 家族、 二 级 或 三 级 结构 、 膜 蛋白 、 结 构 域 以 及 结构 修饰 等 信息 ( 表 





4-6 )。 
表 4-6 常用 蛋白 结构 数据 库 
数据 库 Ee GRE ee | 网址 链接 
PDB 和 蛋 日 质 三 维 结构 http: //www.resb.org/pdb 
REAID 重 日 质 结 构 修饰 数据 库 http: //pir.georgetown.edu/cgi—bin/resid 
中 国 重 日 质 结构 数据 库 ”中 国 蛋 日 质 结构 数据 库 http: //lifecenter.sgst.cn/enpdb/en/pdbHome.do 
BMRB 生物 磁 共 振 数 据 库 http: //www.bmrb.wisc.edu/ 
SWISS-3DIMAGE 三 维 结构 图 示 http: //us.expasy.org/sw3d/ 
DSSP c ESL ZR ESTAS http: //www.embi.kun.nl/gv/dssp/ 
SWISS-MODEL 从 序列 模 建 结构 http//www.expasy.org/swissmod/SWISS-MODEL.html 
FSSP 已 知 空间 结构 的 蛋白 质 家 族 — http: //www.bioinfo.biocenter.helsinki.fi 
SCOP SE FAR ot RE http: //scop.mre—lmb.cam.ac.uk/scop/ 
CATH BE A RATS BE E http: //www.biochem.ucl.ac.uk/bsm/cath/ 
Pfam 和 蛋白质 家 族 和 结构 域 http: //pfam.wustl.edu/ 
tmbase 跨 膜 蛋白 数据 库 ftp: //ulrec3.unil.ch( /pub/tmbase ) 
TrEMBL EMBL 的 翻译 数据 库 http: //kr.expasy.org/sprot/ 


PROSITE 重 日 质 功 能 位 点 http: //kr.expasy.org/prosite/ 
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重 日 质 蜗 级 结构 预测 万 法 


Section 3 Method of Protein Advanced Structure Prediction 





集 日 质 结 构 的 直接 获取 仍然 存在 瓶 贷 ,大 量 序 列 已 知 重 日 质 的 三 维 结构 尚未 被 实验 方 
法 测定 出 来 。 在 这 种 情况 下 ,充分 利用 一 级 序列 信息 和 已 知 重 白质 的 空间 结构 信息 来 预测 
未 知 重 日 质 的 空间 纺 构 ,已 经 成 为 研究 和 理解 重 日 质 结构 -功能 关系 的 最 重要 手段 之 一 。 人 
们 要 求 对 重 日 质 结构 分 类 不 仅 应 能 够 日 动 化 处 理 ,而 且 应 同时 具有 更 加 准确 和 更 低 计算 量 
竺 特点。 和 集 日 质 结构 日 动 分 类 问题 可 以 被 纳入 模式 识别 的 范畴 ,通过 提取 分 析 重 日 质 结构 
的 关键 特征 ,挖掘 蕴含 于 大 量 已 知 类 别 和 结构 重 日 质 中 的 结构 和 功能 知识 来 构造 分 类 胡 , 最 
终 实 现 对 未 知 和 集 日 质 结构 的 分 类 预测 。 和 集 日 质 折 合 分 类 识别 的 特征 提取 对 象 ,也 逐渐 从 盯 
列 向 结构 过 渡 。 根 据 特征 的 来 源 ,当前 的 研究 方法 可 分 为 三 类 : 基于 序列 基于 结构 ,以 及 两 
者 混合 的 特征 提取 方法 。 为 了 从 和 蛋白质 序列 或 结构 中 获取 包含 更 多 的 结构 或 功能 信息 的 特 
全 ,人 们 通常 从 多 个 方面 去 提取 特征 ,然后 将 所 得 到 的 各 种 特征 组 合 在 一 起 进行 分 类 。 


一 、 蛋 白质 二 级 结构 预测 方法 及 软件 D> 


重 白 质 二 级 结构 的 预测 通 篆 被 认为 是 重 白 结构 预测 的 第 一 步 , 是 根据 它们 害 预 测 的 局 
部 结构 ,对 蛋白 序列 中 的 氨基 酸 进行 分 类 。 二 级 结构 的 预测 方法 通常 分 为 多 序列 列 线 预 测 
和 单 序列 预测 的 方法 。 巾 于 单 序 列 预测 所 提供 的 信息 只 是 残 基 的 顺序 而 没有 其 空间 分 布 的 
信息 ,所 以 单 序列 预测 的 算法 预测 准确 率 并 不 高 。 多 序列 列 线 预 测 和 神经 网 络 的 应 用 大 大 
提高 了 二 级 结构 预测 的 准确 度 , 通 过 对 序列 比 对 的 预测 可 以 明确 的 提供 单一 位 点 在 三 维 结 
构 上 的 信息 。 通 常 二 级 结构 预测 的 准确 率 比 单 序 列 预测 能 够 提高 10% ,很 多 方法 甚至 可 达 
到 709%~77% 的 准确 度 。 


(一 ) 二 级 结构 预测 方法 


1. £u NE ”经验 参数 法 是 Chou 和 Fasman 提 出 的 ,是 一 种 基于 单个 氨基 酸 残 基 统 计 
的 经 验 预 测 方 法 。 通 过 统计 分 析 ,获得 每 个 残 基 出 现 于 特定 二 级 结构 构象 的 形象 性 因子 , 进 
而 利用 这 些 倾向 性 因子 预测 重 白 质 的 二 级 结构 。 它 使 用 氨基 酸 物 理化 学 数据 中 派生 出 来 的 
规律 来 预测 二 级 结构 。 首 先 统计 出 20 种 氨基 酸 在 a 螺旋 、B 折 著 和 无 规则 卷曲 中 出 现 频率 
的 大 小 ,然后 计算 出 每 一 种 氨基 酸 在 这 几 种 构象 中 的 构象 参数 Px ,构象 参 数值 的 大 小 反映 了 
该 种 残 基 出 现在 某 种 构象 中 的 倾 癌 性 的 大 小 。Chou 和 Fasman 根 据 残 基 的 倾 回 性 因子 提出 二 
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级 结构 预测 的 经 验 规 则 ,根据 蛋白 序列 寻找 二 级 结构 的 成 核 位 点 和 终止 位 点 。 这 种 方法 可 
能 能 够 正确 反映 蛋白 质 二 级 结构 的 形成 过 程 ,但 预测 成 功率 并 不 高 , 仅 有 50% 左 右 。 

2. COR 算 法 “GOR 算 法 是 一 种 单 序列 预测 方法 , 因 其 作者 Garnier、 Osguthorpe 和 Robson 
而 得 名 。 基 于 信息 论 和 贝 叶 斯 统计 学 方法 ,将 和 蛋白质 序列 作为 一 连 串 的 信息 值 处 理 。 该 方 
法 不 仅 考 虑 被 预测 位 置 本 身 氨基 酸 残 基 的 种 类 对 该 位 置 构象 的 影响 ,也 考虑 相 邻 残 基 种 类 
对 该 位 置 构象 的 影响 。GOR 方 法 的 具体 做 法 是 : 将 序列 中 的 每 一 个 残 基 与 和 它 的 N 端 紧邻 
的 8 个 残 基 以 及 和 它 C 端 紧邻 的 8 个 残 基 一 起 考虑 ,通过 对 已 知 二 级 结构 的 和 蛋白 样本 的 分 析 ， 
计算 出 中 心 残 基 的 二 级 结构 分 别 为 螺旋 、 折 友和 转角 时 每 种 氨基 酸 出 现在 窗口 中 各 个 位 置 
的 频率 ,产生 一 个 17 x 20 的 得 分 和 矩阵。 然后 预测 序列 中 每 个 残 基 形 成 这 些 二 级 结构 的 概率 。 
这 样 使 预测 的 成 功率 提高 到 65% 左 右 。 

3. 多 序列 列 线 预 测 ” 对 序列 进行 多 序列 比 对 ,并 利用 多 序列 比 对 的 信息 进行 结构 的 预 
测 。 调 查 者 可 找到 和 未 知 序列 相似 的 序列 家 族 , 然 后 假设 序列 家 族 中 的 同 源 区 有 同样 的 二 
级 结构 ,预测 不 是 基于 一 个 序列 而 是 一 组 序列 中 的 所 有 序列 的 一 致 序列 。 

4. 神经 网 络 方法 “神经 网 络 算法 通常 是 由 三 层 相 同 的 神经 元 构成 的 层 状 网 络 ,使 用 反 
馈 式 学 习 规 则 ,底层 为 输入 层 , 中 间 为 隐 含 层 ,顶层 是 输出 层 , 信 号 在 相 邻 各 层 间 逐 层 传递 ， 
不 相 邻 的 各 层 间 无 联系 ,在 学 习 过 程 中 根据 输入 的 一 级 结构 和 二 级 结构 的 关系 的 信息 不 断 
调整 各 单元 之 间 的 权重 ,最 终 目 标 是 找到 一 种 好 的 输入 与 输出 的 映像 ,并 对 未 知 二 级 结构 的 
蛋白 进行 预测 。 神 经 网 络 方法 的 优点 是 应 用 方便 ,获得 结果 较 快 较 好 ; 主要 缺点 是 没有 反 
映 和 蛋白 的 物理 和 化 学 特性 ,而 且 利 用 大 量 的 可 调 参 数 , 使 结果 不 易 理解 。 许 多 预测 程序 如 
PHD、PSIPRED 等 均 结 合 利用 了 神经 网 络 的 计算 方法 。 

5. 基于 已 有 知识 的 预测 方法 ”预测 方法 包括 Lim 和 Cohen 两 种 方法 。Lim 方 法 是 一 种 物 
理化 学 的 方法 , 它 根据 氨基 酸 残 基 的 物理 化 学 性 质 ,包括 : SUPE . 亲 水 性 .带电 性 以 及 体积 
大 小 等 ,并 考虑 残 基 之 间 的 相互 作用 而 制订 出 一 套 预 测 规则 。 对 于 小 于 50 个 氨基 酸 残 基 的 
肽 链 ,Lim 方法 的 预测 准确 率 可 以 达到 73% , 另 一 种 是 Cohen 方 法 , 它 的 提出 当时 是 为 了 a/B 
蛋白 的 预测 ,基本 原理 是 : 朴 水 性 残 基 决 定 了 二 级 结构 的 相对 位 置 ,螺旋 亚 单元 或 扩展 单元 
是 结构 域 的 核心 , a 螺旋 和 有 B 折 和 受 组 成 了 结构 域 。 

6. 混合 方法 ”将 以 上 几 种 方法 选择 性 的 混合 使 用 ,并 调整 它们 之 间 使 用 的 权重 可 以 提 
高 预测 的 准确 率 ,目前 预测 准确 率 在 70% 以 上 的 都 是 混合 方法 ,其 中 , 同 源 性 比较 方法 ,神经 
网 络 方法 和 GORZTHHE ERIS iz. 


(二 ) 蛋白 质 结构 域 识别 方法 


蛋白 质 结构 域 是 具有 特定 功能 的 基本 结构 单元 。 它 既是 蛋白 质 结 构 化 分 类 的 基础 ,又 
与 重 日 质 进化 密切 相关 。 它 对 于 人 们 认识 和 集 日 质 的 结构 .功能 和 进化 有 着 重要 的 意义 。 因 此 ， 
蛋白质 结构 域 的 研究 已 成 为 生物 信息 学 中 的 一 个 重要 问题 。 通 过 专家 手工 来 确定 集 日 奈 结 
构 域 是 非常 可 靠 的 。 然 而 处 在 数据 量 急速 增长 的 后 基因 组 时 代 , 人 类 专家 的 处 理 能 力 已 无 
法 满足 数据 分 析 的 需要 ,这 时 目 动 化 的 预测 方法 则 显得 尤为 重要 。 目 动 化 的 结构 域 预测 方 
法 可 分 为 基于 模板 的 方法 和 从 头 预测 的 方法 。 尽 管 基 于 模板 的 方法 已 经 取得 了 较 大 的 成 功 ， 
但 它 在 缺乏 相应 的 模板 信息 时 就 不 再 有 效 。 仅 从 厅 列 信息 来 预测 结构 域 的 方法 (从 头马 测 ) 
成 为 结构 生物 学 和 序列 分 析 中 的 一 个 重要 的 问题 。 目 前 许多 机 各 学习 方 法 ,如 隐 马 尔 可 夫 
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模型 .神经 网 络 SCH n] te pL C. £O HTT 58 J 28 3071 9 85 A IE ToU vB < 

1. 递归 的 神经 网 络 ”可 使 用 的 模型 有 基于 长 短 记忆 ( long short-term memory, LSTM ) 3$ 
归 网 络 的 重 白 质 结构 域 边界 预测 模型 一 一 IPSP-LSTM。 该 模型 通过 选择 性 记忆 的 递归 方法 
对 得 日 质 序列 中 的 长 程 相关 性 进行 建 模 。 该 模型 在 整体 结构 域 预测 和 多 域 蛋 白质 链 的 预测 
中 的 效 来 较 好 。 在 双 域 的 预测 中 的 敏感 性 和 特异 性 更 加 平衡 。 

2. 文 持 癌 量 机 ” 文 持 向 量 机 的 基本 原理 是 : 首先 通过 将 种 子 序列 与 数据 库 中 已 知 的 序 
列 相 比较 ,生成 多 序列 比 对 结果 ,对 比 对 结果 进行 特征 提取 ,这 些 特征 能 够 直接 或 间接 的 反 
映 焦 日 质 的 结构 属性 及 结构 域 信息 ,再 运用 信息 论 的 方法 将 特征 值 信息 最 大 化 。 使 用 支持 
癌 量 机 学 习 系 统 对 提取 的 特征 值 进 行 分 类 ,实现 了 从 多 变量 到 单 分 类 结果 的 非 线 性 映射 。 


(三 ) 二 级 结构 预测 相关 软件 


目前 较为 常用 的 二 级 结构 预测 软件 PSIPRED 、 Jpred、PREDATOR 、PSA 和 SOMPA 等 都 有 
CEZAR tits 进入 这 些 软件 的 主页 ,输入 Fasta 格 式 的 目的 蛋白 序列 ,在 网 页 上 直接 选取 适合 
的 集 日 质 结构 预测 算法 ,点 submit 运 行 即 可 。 

l. Jpred Jpred 是 一 种 集 日 质 二 级 结构 预测 网 络 服务 磊 , 由 Barton Group 创建 于 1998 
年 。 通 过 提交 单一 和 集 白 质 序列 或 多 重 蛋 白质 序列 并 运行 , Jpred 就 可 以 预测 出 蛋白 质 序列 
的 二 级 结构 : a -RIE B - 折 全 或 无 规则 卷曲 。Jpred 应 用 了 Jnet 神经 网 络 算法 ,准确 率 达 
到 了 76.4%。 其 基本 原理 是 : Jpredik 4$ 2838] :EDSC , PHD, NNSSP, PREDATOR, ZPREDZI 
MULPRED 六 种 预测 方法 进行 预测 ,它们 都 采用 了 多 重 序列 的 进化 信息 。NNSSP 依 据 最 大 
同 源 性 , PDH 采 用 神经 网 络 , DSC 根 据 线性 识别 , MULPRED 联合 不 同 的 单一 序列 预测 方法 ， 
PREDATOR 考虑 氧 键 倾向 性 , ZPRED 加 权 预 测 。 最 后 将 六 个 结果 总 结 为 一 个 简单 的 文件 
格式 。 

2. SOPMA ”位 于 法 国 里 郧 的 CNRS( centre national de la recherche scientifique ) ( http: // 
pbil.ibep.fr/ ) 使 用 独特 的 方法 进行 蛋白 质 二 级 结构 预测 。 它 是 使 用 $ 种 相互 独立 的 方法 进行 
预测 ,并 将 结 末 汇集 整理 成 一 个 “一 致 预测 结果 "。 这 5 种 方法 包括 : Garnier-Gibrat- Robson 
(GOR ) 方 法 、Levin 同 源 预测 方法 、 双 重 预 测 方法 、PHD 方 法 和 CNRS 自 己 的 SOPMA 方 法 。 简 
单 地 说 , SOPMA 这 种 目 优 化 的 预测 方法 建立 了 已 知 二 级 结构 序列 的 次 级 数据 库 , 库 中 的 每 
个 生日 质 都 经 过 基于 相似 性 的 二 级 结构 预测 。 然 后 用 次 级 库 中 得 到 的 信息 去 对 查询 序列 进 
行 二 级 结构 预测 。 

3. nnPredict nnpredict( http: //www.empharm.ucsf.edu/-nomi/nnpredict.html ) 算法 使 用 了 
一 个 双 层 前 馈 神 经 网 络 去 给 每 个 氨基 酸 分 配 预测 的 类 型 。 在 预测 时 ,服务 器 使 用 FASTA 格 
陈 的 文件 ,其 中 有 单字 符 或 三 字符 的 序列 以 及 和 蛋白质 的 折 大 类 ( a 、B 或 w/B )。 残 基 被 分 
为 几 类 ,如 a 螺旋 (H)、B 链 (EE )e Haft — ), 奉 对 给 定 残 基 未 给 出 预测 , 则 会 标 上 问号 (? )， 
这 说 明 无 法 做 出 可 信 的 分 配 。 硅 没有 关于 折 共 类 的 信息 ,预测 也 能 在 不 定 折 疤 类 的 情况 下 
进行 ,而 且 这 是 缺 省 的 工作 方式 。 据 报道 ,对 于 最 佳 实例 的 预测 , nnpredict 的 准确 率 超过 了 
65% © 

4. PredictProtein | PredictProtein( http: //cubic.bioc.columbia.edu/predictprotein/ ) 在 预测 中 
MH Se A AS Ta TS FAG, E AF IEAA WY 9] LES WISS-PROT J Pie 2 TH UI 
的 序列 。 当 相似 的 序列 被 找到 后 ,一 个 名 为 MaxHom 的 算法 被 用 来 进行 一 次 基于 特征 简 图 的 
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多 序列 比 对 。MaxHom 用 迭代 的 方法 来 构造 比 对 : 当 第 一 次 搜索 SWISS-PROT 后 ,所 有 找到 | 
的 序列 与 查询 序列 进行 比 对 ,并 构造 出 一 个 比 对 后 的 特征 简 图 。 然 后 ,这 个 向 图 又 被 用 来 在 
SWISS-PROT 中 搜索 新 的 相似 序列 。 由 MaxHom 产 生 的 多 序列 比 对 随后 被 置 人 一 个 神经 网 
络 , 用 PHD 的 方法 进行 预测 。 

【 例 4-2 ] 在 SOPMA 中 预测 人 类 驱动 蛋白 的 二 级 结构 

(1 ) 进 入 SOPMA 主 页 : 

( http: /npsa-pbilibcp.fregi-bin/npsa_automat.pl ? page=/NPSA/npsa_sopma.html ); 

(2 ) 如 图 4-9 所 示 , TE "Paste a protein sequence below" Fas Fy Abdias A ZB SK oh AEE 
列 ,设置 拟定 的 参数 ,点 击 “SUBMIT ”按钮 进行 分 析 ; 





SOPMA SECONDARY STRUCTURE PREDICTION METHOD 


[Abstract] [NPS@ help] [Original server] 
Sequence name (optional) : 
Paste a protein sequence below : help 


Output width : 70 


| SUBMIT || CLEAR | 


| 
l 


Parameters 
Number of conformational states : 4 (Helix, Sheet, Turn, Coil) v 
Similarity threshold : 8 


Window width : 17 


图 4-9 SOPMA 首 页 


(3 ) 结果 如 图 4-10 ; SOPMA 方 法 预测 的 二 级 结构 主要 含有 a -螺旋 (h ), 37.44%; HE 
伸 链 (e ), 占 14.26%; B-TÆ (t), 4.16%; 无 轨 卷 曲 (e ), 占 44.13%。 

5. 蛋白 质 二 级 结构 其 他 预测 软件 目前 ,还 有 很 多 蛋白 质 二 级 结构 在 线 预测 软件 ,如 
APSSP、CFSSP、PROF 和 PSIPRED 等 ( 表 4-7 )。 并 非 所 有 的 方法 都 是 默认 执行 的 ,有 些 方 
法 ,如 跨 腊 螺旋 的 预测 ,在 自动 运行 时 使 用 特殊 的 保守 起 始 值 ,而 在 有 明确 要 求 时 使 用 不 同 
的 起 始 值 。 以 下 方法 可 选择 使 用 : MaxHom, BLASTP, PSI-BLAST、 SEG、PHDsec、PHDacc、 
PHDhtm, PROFsec , PROFacc 、COILS 、CYSPRED 、ASP、PROSITE , ProDom 、CHOP 、NORSp、 
PROFtmb , PROFcon08 , LOCkey , LOChom, PredictNLS 和 LOCnet。 使 用 者 可 以 明确 要 求 使 用 
TOPITS+ 或 用 EvalSec 评 估 二 级 结构 预测 方法 的 准确 率 。 注 意 , 某 些 方法 的 使 用 有 以 下 优势 : 
加 快 执行 的 速度 和 简化 结果 。 然 而 请 记 住 ,数据 库 搜索 及 其 结果 是 速度 和 结果 字 节 数 的 限 
制 因素 。 
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SOPMA result for : kinesin 


Abstract Geourjon, C. & Deléage, G., SOPMA: Significant improvement in protein secondary structure prediction by consensus prediction from 
multiple alignments., Cabios (1995) 11, 681-684 
View SOPNA in: [AnTheProt (PC) , Download...] (HELP] 

10 20 30 40 50 60 10 


| | | | | 

MASQFCLPESPCLSPLKPLKPHFCDIQECITAAIQRSDKRIHLAYVTEINRENYYWYTYEYWVYEKAVYKKCKK 
hhhheccccccccceccccecccchhhhtteeeeee--tt- -hheeeehh-tt--eeeeeehhtt --tt-- 
IDLETILLLNPALDSAEHPMPPLPLSPLALAPSSAIRDQRTVTKWVAMIPQKRQTASGDSLD 
eehhheeeccttccccccccecccececcececcccccccceccececececccccccececccoccecc 
LMKQKK SPCL WE IQKLQEQREKRRRLQQE IRARRALDYNTRNPHYE IMHMRTEEYTRRHLDSSKISVLEPPQ 
eee eeehhhhhhhhhhhhhhhhhhhhhhhhhhhhhhe - «cechhhhhhhhhhhheoceccesccccece 
EHRICVCVRERPLRQRETTLKDLDII VY 
Tcceeeeeeccccoccocccecccceeseecttceeeseec cccchhhhhhhhtt-eeeeeee--c- -chhhh 
QFTAQPLVESIFREGMATCF AYGQTRSCKTYTVGGDF SG T AQDCSKG TY ALV AQD 

hhh- -hhhhhhhtt --eeeeee--ccccceeeeeccccccccccctt-ehhhhhhhhhhhh- ------«h 
EVYGTFFEIYGGKVYIDLLNVKKKLQVLEDGNQQIQVVGLQEKEVCCVEEVLNL VE IGNSCRTSRQTSVRA 
eeeeehhhhhhhhhhhhhhtt -ceeeehttc--eeeee-chhhh--hhhhhhhhhtt oo reece er 
HSSRSHAVFQIILKSGG IMHGKF SLYDLAGHERG ADTTEASRKRQLEGAE INK SLLALKECTLALGQNKP 
ccecchheeeeeehccccccceeeeeeeccccecececececccecc chhihhhhhhhihhhhhihhhhh: ece 
HIPFRASKLALVLRDSFIGQNSSTCMIATISPGMISCENTLNTLRYANRVEKLNVDVRPYHRGHYP IGHE 
eceeeechhhhhhhhheeecocceeeeeerctt cochhhhhhhhhhhhhhhhhee:eccescececcere 
APRMLKSHIG! IKIPY¥Q IEEVETLPTLLGKDTTISGKGSSQWLENIQERAGG V 
-hhhhhhhhh-- ---cc-ccceeccccchhhhhhhhhhhhhhhhhhhhhhhh:- - - hhhihhhhhhhhhhh - 

IDAL 


SOPMA : 
Alpha helix (Hh) : 252 is 37.44% 
310 helix (6g) : Ois 0.00% 
Pi helix (Tid: è 0is 0.00% 
Beta bridge (Bb) : 0is 0.00% 
Extended strand (fe) : 96 is 14. 26% 
Beta turn (Tt) : 28 is 4.16% 
Bend region (5s) : 0is 0.00% 
Random coil (-): 297 is 44.13% 
Ambigous states (?) : 0is 0.00% 
Other states : 0 is 0.00% 


^ 


| 1 | 
P t y : 


“| 
i o y^ 


bdo 





图 4-10 SOPMATAAJIZE X 


表 4-7 常用 二 级 结构 预测 软件 





ee Sa 
APSSP http: //imtech.res.in/raghava/apssp/ 基于 最 近 信 和 神经 网 络 方法 - 根据 氨基 酸 序 预测 
重 日 质 的 二 级 结构 
CFSSP http: //www.biogem.org/tool/chou-fasman/ Chou & Fasman 算 法 ,根据 氨基 酸 序列 预测 重 白 质 


二 级 结构 
PROF http: //www.aber.ac.uk/~phiwww/prof/ 根据 氨基 酸 多 重 序 列 比 对 预测 重 白质 二 级 结构 
PSIPRED http: //bioinf.cs.ucl.ac.uk/psipred/ Hie HE PS pu d Fd PASE Fa ll A EH profiled BAG 14 


识别 工具 
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二 、 蛋 白质 三 级 结构 的 预测 方法 及 软件 DD 


(一 ) 蛋白 质 三 级 结构 的 预测 方法 


目前 ,蛋白质 三 级 结构 的 预测 方法 主要 有 三 类 : 同 源 模 建 法 . 折 县 识别 法 和 从 头 预 测 。 

L 同 源 模 建 法 ” 同 源 模 建 法 也 称 为 比较 模 建 法 ( comparative modeling )。 同 源 模 建 法 的 
基础 是 同 源 和 蛋白 质 空间 结构 比 蛋 白质 序 列 保守 性 更 强 的 理论 ,基本 假设 是 和 集 日 质 结构 具有 
某 种 规则 性 ,其 可 能 的 空间 结构 的 基本 形态 种 类 有 限 , 各 个 形态 由 各 物种 特定 的 须 基 酸 序列 
所 决定 。 在 和 蛋白质 序 列 的 一 致 性 大 于 30% 的 前 提 下 ,一 个 未 知 结构 的 和 焦 日 奈 可 以 利用 一 个 
或 一 个 以 上 与 其 相关 的 蛋白 质 结构 来 建立 其 空间 结构 。 一 般 来 说 ,目标 蛋白 质 序 列 和 模板 
序列 的 相似 性 越 高 ,所 模 建 出 来 的 结构 正确 性 .可 信和 度 也 就 越 高 。 

2. 折合 识别 法 ”有 许多 蛋白质 氨基 酸 序 列 大 不 相同 ,但 是 却 拥 有 极为 相似 的 三 维 结 
构 ,在 这 种 情况 下 同 源 模 建 法 因为 序列 一 致 性 太 低 而 失效 ,因此 ,一 些 科 学 家 还 提出 了 一 种 
预测 和 蛋白质 三 级 结构 的 新 策略 ,这 类 方法 被 称 为 Threading 71 1 9X r8 28 7819] 75 1X; , 3 — 
方法 的 基本 思想 是 假定 被 预测 和 集 日 质 的 折合 类 型 与 某 一 已 知 结构 的 集 日 质 的 折 蔡 类 型 相 
同 , 这 样 ,和 蛋白质 结 构 预 测 的 问题 就 转变 为 与 已 知 空间 结构 的 蛋白质 比 对 ,从 而 大 大 减少 了 
预测 蛋白质 结构 的 难度 ,而 且 不 需要 预测 二 级 结构 , 即 耳 接 巴 测 三 级 结构 ,从 而 可 以 避免 二 
级 结构 预测 不 准确 的 限制 ,是 一 种 有 湾 力 的 预测 方法 。 

折 笃 识别 法 的 实现 过 程 是 总 结 出 已 知 的 独立 重 日 质 结构 模式 作为 可 与 未 知 结构 进行 匹 
配 的 模板 ,然后 通过 学 习 现 有 的 数据 库 总 结 出 评价 序列 与 结构 匹配 优 秒 的 平均 势 晒 数 作为 
判别 标准 ,选择 出 未 知 序列 与 已 知 特定 结构 的 最 佳 匹 配 。 给 定 一 个 结构 未 知 的 查寻 序列 及 
一 些 蛋 白质 的 结构 (或 结构 的 片段 ), 计 算 这 个 序列 与 其 中 某 个 结构 的 折合 匹配 关系 ,然后 将 
氨基 酸 序 列 和 三 维 结构 在 空间 中 的 位 置 做 排列 ,再 运用 适当 的 计 分 方式 ,计算 匹配 得 分 , 根 
据 得 分 的 高 低 , 对 序列 与 折合 的 立体 结构 进行 评估 。 

3. 从 头 预 测 ” 在 既 没 有 已 知 结构 的 同 源 重 白质 、 也 没有 已 知 结构 的 远程 同 源 集 日 质 的 
情况 下 ,上 述 两 种 蛋白 质 结构 预测 的 方法 都 不 能 用 ,这 时 只 能 采用 从 头 预测 方法 (4 Abinitio )， 
即 直接 根据 序列 本 喘 来 预测 其 结构 。 从 头 预测 方法 一 般 由 下 列 3 个 部 分 组 成 : CO— REUS EAR 
的 几何 表示 方法 : 由 于 表示 和 人 处理 所有 原子 和 溶剂 环境 的 计算 开销 非常 大 ,因此 害 要 对 集 日 
质 和 溶剂 的 表示 形式 作 近 似 处 理 ,例如 ,使 用 一 个 或 少数 几 个 原子 代表 一 个 图 基 酸 残 基 。 
@) 一 种 能 量 函 数 及 其 参数 ,或 者 一 个 合理 的 构象 得 分 困 数 ,以 便 计 算 各 种 构象 的 能 量 。 通 过 
对 已 知 结构 的 蛋白 质 进行 统计 分 析 , 可 以 确定 和 集 白 质 构 象 能 量 隐 数 中 的 各 个 参数 或 者 得 分 
函数 。(3) 一 种 构象 空间 搜索 技术 : 必须 选择 一 个 优化 方法 ,以 便 对 构象 空间 进行 快速 搜索 ， 
迅速 找到 与 某 一 全 局 最 小 能 量 相 对 应 的 构象 。 其 中 ,构象 空间 搜索 和 能 量 曙 数 的 建立 是 从 
头 预测 方法 的 关键 。 


(二 ) 蛋白 质 三 级 结构 预测 的 软件 


1. SWISS-MODEL( http: //www.expasy.ch/swissmod/SWISS-MODEL.html ) 4 FH 2] FY £& F4 
P De] WEARS dE. FER CIE MESE AY FF 9 TE ExPdbdà P Pf s Pe PIR RANA E E E 
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同 源 序列 ,建立 最 初 的 原子 模型 ,再 对 这 个 模型 进行 优化 产生 预测 的 结构 模型 。 

由 于 比较 建 模 程序 可 以 具有 不 同 的 复杂 性 ,该 服务 主要 有 以 下 三 种 方式 : 

( 1 ) 人 简捷 模式 ( First Approach mode ): 这 种 模式 提供 一 个 简捷 的 用 户 界 面 : 用 户 只 需要 
输入 一 条 氨基 酸 序 列 ,服务 器 就 会 自动 选择 合适 的 模板 。 或 者 ,用 户 也 可 以 自己 指定 模板 (最 
多 5 条 ), 这 些 模板 可 以 来 自 ExPDB 模 板 数据 库 , 也 可 以 是 用 户 选择 的 含 坐标 参数 的 模板 文 
件 。 如 果 一 条 模板 与 提交 的 目标 序列 相似 度 大 于 25% , 建 模 程序 就 会 自动 开始 运行 。 但 是 ， 
模板 的 可 靠 性 会 随 着 模板 与 目标 序列 之 间 相 似 度 的 降低 而 降低 ,如 果 相 似 度 不 到 50% 往 往 
就 需要 用 手工 来 调整 序列 比 对 。 这 种 模式 只 能 进行 大 于 25 个 残 基 的 单 链 蛋白 三 维 结构 预测 。 

(2 ) 比 对 界面 (Alignment Interface ): 这 种 模式 要 求 用 户 提供 两 条 已 经 比 对 好 的 序列 ,并 
指定 哪 一 条 是 目标 序列 , 哪 一 条 是 模板 序列 (模板 序列 应 该 对 应 于 ExPDB 模 板 数 据 库 中 一 条 
已 经 知道 其 空间 结构 的 蛋白 序列 )。 服 务 器 会 依据 用 户 提供 的 信息 进行 建 模 预 测 。 

(3) 工程 模式 (Project mode ): 手工 操作 建 模 过 程 : 该 模式 需要 用 户 首先 构建 一 个 
DeepView 工 程 文件 ,这 个 工程 文件 包括 模板 的 结构 信息 和 目标 序列 与 模板 序列 间 的 比 对 信 
息 。 这 种 模式 可 以 让 用 户 控 制 许多 参数 ,例如 ,模板 的 选择 , 比 对 中 的 缺口 位 置 等 。 此 外 ,这 
个 模式 也 可 以 用 于 “first approach mode 徇 捷 模式 ”输出 结果 的 进一步 加 工 完善 。 

此 外 , SWISS-MODEL 还 具有 其 他 两 种 内 容 上 的 模式 : DOligomer modeling FRE F1 2£ 
模 ): 对 于 具有 四 级 结构 的 目标 和 蛋白, SWISS-MODEL 提 供 多 聚 模板 的 模式 ,用 于 多 单 体 的 蛋 
白质 建 模 。 这 一 模式 弥补 了 简捷 模式 中 只 能 提交 单个 目标 序列 ,不 能 同时 预测 两 条 及 以 上 
目标 序列 的 蛋白 三 维 结构 的 不 足 ; Q)GPCR mode( G 和 蛋白 偶 联 受 体 模式 ): 是 专门 对 7 次 跨 膜 G 
重 白 偶 联 受 体 的 结构 预测 。 

【 例 4-3 ] 用 SWISS-MODEL 自 动 方 式 以 人 类 驱动 重 白 序 列 为 例 说 明 三 级 结构 建 模 过 程 

第 一 步 : 进入 SWISS-MODEL 三 级 结构 预测 服务 器 主页 (图 4-11 ); . 


H SWISS-MODEL 


Bamer 





Swiss Institute of 
Bioinformatics 








SWISS-MODEL is a fully automated protein SWISS-MODEL Team 
structure homology-modeling server, accessible Torsten Schwede: Project Leader 
myWorkspace via the ExPASy web server, or from the program Florian Kiefer. SWISS-MODEL Repository 
Automated Mode DeepView (Swiss Pdb-Viewer). The purpose ofthis Lorenza Bordoli: Method Development and user 
server is to make Protein Modelling accessible to support 
Alignment Mode all biochemists and molecular biologists Konstantin Arnold: SWISS-MODEL Workspace 
worldwide. 
Project Mode 
What's new? References: 
When you publish or report results using SWISS- 
* NewBeta SWISS-MODEL pipeline for MODEL, please cite the relevant publications: 
Template Identification automated model building with oligomers 
_ l and ligands is now available for testing. e Arnold K., Bordoli L., Kopp J., and Schwede 
Domain Annotation 。 Find more news on SWISS-MODEL Blog T. (2006). The SWISS-MODEL Workspace: A 
e faster news on Twitter web-based environment for protein 
Structure Assessment e Follow us on Facebook structure homology modelling. 
Template Library Bioinformatics, 22,195-201. 


e Kiefer F, Arnold K, Künzli M, Bordoli L, 
Schwede T (2009). The SWISS-MODEL 
Repository and associated resources. 
Nucleic Acids Research. 37, D387-D392. 
Search by Sequence e Peitsch, M. C. (1995) Protein modeling by 
Search by AC E-mail Bio/Technology 13: 658-660. 


Search by full text 


图 4-11 SWISS MODEL 预测 服务 器 主页 
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"B p: 选择 “Automated Mode” — 粘 人 从 NCBI 上 搜索 到 的 人 类 驱动 蛋白 kinesin 和 蛋白 质 
序列 ; 在 这 里 可 以 填写 E-mail 地 址 ,将 结果 发 送 至 电子 邮箱 ,也 可 以 在 新 的 网 页 上 直接 展示 
结果 ; 

第 三 步 : 点 击 “Submit Modeling Request” 即 可 ; 

第 四 步 : 直接 在 页 面 上 查看 蛋白 质 kinesin 的 三 级 结构 信息 (图 4-12 ); 





Model information: Quaternary structure information: [details] 

Modelled residue range: 186 to 540 Template (2gry MONOMER 

Based on template: [2gryA]* (2.35 A) Model: MONOMER 

Sequence Identity [95]: 70.7 

Evalue: 1.73e-140 Ligand information: [details ]w 
Ligands in the template: ADP: 1, MG: 1, UNX 3 

Quality information: [details ]w Ligands in the model none. 





QMEAN Z-Score: -2 75 可 


logs: [Templates]w [Alignment]w [Modelling]» 
display model: as [pdb] - as [DeepView project] - in [AstexViewer|™ 
download model: as [pdb|+ - as [Deepwew project] - as [text] 


Model information: Quaternary structure [details] 
Modelled residue range: — 151 to 544 information: : 
Based on template: [1cz7D]» (2.90 A) Template (1cz7) DIMER 
ewe Sequence Identity [^4]; — 25.87 Model built: SINGLE CHAIN 
Evalue: 0.00e-1 
$ 2 Ligand information: [details]= 
v Quality information: [details]* Ligands in the template: ADP: 1, 
QMEAN Z-Score: -6.22 I MG: 1 


Ligands in the model: none. 
Warning: Low QMEAN Z-scores! Only membrane 
proteins or models of poor quality are expected to 
reach such low scores 
logs: [Templates]w [Aliqnment]* [Modelling] 
display model: as [pdb] - as [DeepView project] - in [Astex Viewer] 
download model: as [pdb]: - as [Deepview project] - as [text] 


图 4-12 借助 SWISSA 一 MODEL 查 找 与 kinesin 三 级 结构 相似 模型 


第 五 步 : 结果 分 析 发 现 系统 自动 选用 的 是 其 中 相似 性 最 高 的 两 个 模型 ,分 别 是 2gry 和 
lcz7, 从 图 4-12 中 可 看 出 其 三 级 结构 含有 a -螺旋 和 平行 B- 折 重 链 。 从 模板 信息 里 可 以 得 
FRM H PrE H IRAE v F1 Pr A .序列 相似 性 及 E 值 。 另 外 ,可 通过 展示 模型 获得 模 
板 的 具体 信息 或 者 通过 下 载 模板 保存 其 三 级 结构 的 PDB 格式 。 

第 六 步 : 使 用 PHYRE 工具 (http: //www.sbg.bio.ic.ac.uk/-phyre/index.cgi ) 查看 蛋白 质 二 
级 结构 的 比 对 细节 、 同 源 性 结构 等 信息 (图 4-13 ); 

第 七 步 : 使 用 CBS( http: //www.cbs.dtu.dk/index.shtml ) 中 的 FeatureMap3D 直 接 对 蛋白质 
序列 做 基于 PDB 数据 库 的 生日 质 三 维 结构 图 (图 4-14 ); 

第 八 步 : 预测 结果 可 以 使 用 显示 生物 大 分 子 三 维 结构 图 像 的 软件 ,如 RasMol、 PyMol、 
Cn3D , SWISS—pdb Veiwer“ fae (14-15 )。 ' 

2. PROCARB( http: //www.procarb.org/ ) 是 一 款 可 预测 糖 蛋 白 的 软件 ,其 包含 的 同 源 
建 模 模块 是 基于 同 源 建 模 的 方法 预测 糖 蛋白 的 三 维 结构 。 预 测 的 过 程 是 : 首先 ,由 于 糖 蛋 
FAT ANG: BEBE SS A AOI: BEE AE A , FAL, 分 别 在 Swissprot 数 据 库 中 查找 N 连 接 糖 集 日 ,在 
0-glycbase 数 据 库 中 查找 0 连接 糖 重 白 。 其 次 ,在 搜索 到 的 糖 蛋 白 中 ,选择 与 蛋白 家 族 的 序 
列 相似 性 在 30% 以 上 的 家 族 中 的 一 个 蛋白 作为 模型 。 在 被 选择 的 糖 蛋白 序列 中 ,要 求 至 少 
有 一 个 糖 基 化 位 点 是 在 Swissprot 中 存在 和 注释 的 。 然 后 ,将 序列 输入 到 3D-JIGSAW(http: // 
bmm.cancerresearchuk.org/~3djigsaw/ ) 服务 需 中 对 各 白质 进行 建 模 。 最 后 ,使 用 CHARMm( http: // 
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ya 


Secondary Structure Prediction 

index |: Soe 20 30 40 50 60 70 
Query Sequence M. QFCL'-E-. CL LK LK HF. DIQE.I Yoo! QR DKRI FILS V VE El NREN (WV VEWVEK VKK KKIDLE 
psipred seece e efMMe ee ceeeecees eeeeeer 

jnet ihhhhhhhh hh peeee eeecec oc eeeeeoe oe elece ec 

SSpro Pp EE EH eecece pe eececce : 

Consensus jeeeeceecce se eeeeeee 


























Cons_prob > XEM CUu o 350 WENEEENE SEEBE 
Disorder Prediction 
Index 10 20 30 40 50 60 70 
Disopred SECIS ESIS ESO oo oogsisjooo 008900 00000000 0000000000 00 00000000 | odd gy 00000 0000000000 0000 
Diso_prob EE? TEJI 2 224 33324 132449942444 3224 - 5 40000040 0 R213 2430 OAM 
Prosite 
FINALLY - a new fold library has been installed! Let me know if you have any problems 
To predict functional residues and GO classification, try ConFunc 
Fold Recognition 
View i Estimated | Fold/PDB à (beta- 
Alignments SCOP Code BIZ 25, GE E-value Precision | descriptor Superfamily Family test) 
PDBTitle: 
the crystal 
structure of 
the mimmal 
functional 
up PDB Chain: A PDB domain of 
lil x 1 9e-32 nía header:structural Molecule:kinesin- the2 na 
du 31 1 protein like protein kif2c, microtubule 
destabilizer 
mel & "s kif2c 
comniexed 





图 4-13 有 蛋白 质 二 级 结构 的 比 对 细节 ARRHH 


FeatureMap3D - query result 
Please cite: 


FeatureMap3D — a tool to map protein features and sequence conservation onto homologous structures in the PDB 
Rasmus Wernersson, Kristoffer Rapacki, Hans-Henrik Stzrfeldt, Peter Fad Sackett, and Anne Melgaard 
Nucl. Acids Res. 2006 34; W34-W8é 


À guide of how to read the result can be found here: ou 


Result for Seq1.1.1 (673 aa) 


Download: GetStruct report | PDB structure (2GRY) | 3D plot (png) | PyMol script | All files (TAR archive) | All files (ZIP archive) 











图 4-14 预测 的 kinesin 三 维 模 型 与 模板 的 比 对 
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ES Y pmr /Tk ig Sk aes M as =e ba MURUS "Uer M XX © s = 
了 PyEO [: “¢ "ERY NAN ae MES ete 
- a RN lb EE ea eee eee me tS, a e 


zx 
Eile Edt Build Movie Display Setting Scene Mouse Wizard Plugin 
COMPNO 6 ENGINEERED: YES © 


ObjectMolecule: Read secondary structure assignments. 


ObjectMolecule: Read crystal symmetry information. 
Symmetry: Found 18 s try operators. 


cmdLoad: "0: /2GRY.pdb" loaded as "2GRY". 





EE P7HOL Viewer 


/2GRY//A/169 176 181 186 196 201 206 211 216 221 226 231 236 
EIMCMIRDFRGSLDYRPLPIDEHRICVCVRKRPLNKKET OMKDLDVIT IPSKDVVMVHEPKOK 


图 4-15 kinesin 三 维 结构 预测 结果 可 和 视 化 
www.charmm.org/ ) 对 模型 进行 优化 。 
[ 例 4-4 】 应 用 PROCARB 预 测 人 类 酸性 [ 神经 ] 酰 胺 酶 的 三 维 结构 
( 1) 打开 PROCARB( http: //www.procarb.org/ ), 进 入 主页 (图 4-16 ); 


PROCAR B wre 


A datubase of known and modeled carbohydrate-binding 
protew tructures with sequence-based prediction tool 


Procarb Home CBS-Pred Homology Models Add Complex Datasets Tools Contact Search 
Thursday, March 15, 2012 


PR OCARB Statistics 
WELCOME TO PROCARDB"^: 


PROCARB is an open access database comprising three independently working components:- 
1) PROC ARB module- It consists of 3D structures of protein-carbohydrate complexes taken from PDB (more...) 


2) Hemology Models- It consists of manually developed 3D models of N-Linked and O-Linked glycoprotems 
of unknown three-dimensional structures. (more...) 


3) CBS-Pred- It consists of a webserver to predict carbohydrate-binding sites using single-sequences or evolutionar: 
information (PSSM) (more. ) 


图 4-16 PROCARB&Y FR 
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) 点 击 “HUMOLOGY MODELS" 3t A In] jg zi Es mon 图 4-17 ), YE "Enter Swissprot ID" 


输 rth Angra 神经 ] 栈 胺 酶 的 ID “Q13510”, zit; "Enter", nf E oie Z3D-JIGSAW 
同 源 建 模 月 ,进行 三 维 结构 的 预测 ; 


HOMOLOGY MODELS 


Here, you can find the three dimensional structure models of diverse types of glycoproteins 
All these models were automatically generated by using 3DJIGSAW homology modeling server 


Enter Swissprot ID [213510 — | Enter | Reset 0:9. 


图 4-17 PROCARB$3UMOLOGY MODELS 模 块 





) 获得 人 类 酸性 | 神经 | 酰胺 酶 的 基本 信息 和 模 建 的 = EAT I SF 4-18 ) 例如 , 
ne 糖 基 化 位 点 、Pfam 的 描述 和 模 建 的 3D 结 构 的 下 载 链 接 等 


Uniprot 


13410 
ID Q 
Pro ibm Acid ceramidase 
Name 
Source Homo sapiens 
Linear amide C-N 
Pfam hydrolases, 
Description choloylglycine hydrolase 
family 
Gene ASAHI 
Name 
It hydrolyzes the 
- sphingolkpid ceramide 
qu dm into sphingosine and free 
fatty acid 
Giycosytation ASN259 & ASN286 
Sites J 
Model - 
3D Download VY 
Structure 
meee Ciok Bare ts <earch Human JT RS $c beta 
p articles in PMC for Acid Qu 499 GRE ASN 499) 
Central 7 
ceranudase 





图 4-18 人 类 酸性 [神经] 酰胺 酶 的 预测 结果 


3. Phyre Phyre( http: //www.sbg.bio.ic.ac.uk/phyre/html/index.html ) 主要 利用 折 全 方式 对 
模型 进行 预测 ,主要 是 针对 网 上 数据 库 中 没有 融 同 源 性 模板 的 集 日 三 级 结构 的 预测 。Phyre 
服务 侣 是 2005 年 发 布 的 ,其 原理 是 基于 每 个 焦 日 特异 的 位 点 打分 甜 vf t fTprofile-profile FE 
M. Phyre2HE A s 4::20114F A 4B AY, EHI SHED BE: IT CIT Fe E, = Té SEC RR DT ER PE 
和 使 用 HHpred / HHsearch 软 件 包 预测 同 源 性 等 

4. 其 他 重 白 质 三 维 结构 预测 软件 目前 ,还 有 很 多 和 蛋 日 质 三 级 结构 篆 用 预测 软件 ,如 
CPHmodels , ESyPred3D , LOOPP FUGUE 和 HMMSTR 等 ( 表 4-8 ) 
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表 4-8 三 级 结构 其 他 预测 软件 
CPHmodels http: //www.cbs.dtu.dk/services/CPHmodels/ ”基于 profile—profile Hy) 比 对 的 功能 打分 算法 和 远 源 
的 同 源 重 白 模型 算法 方法 预测 重 日 质 三 级 结构 
ESyPred3D http: //www.fundp.ac.be/sciences/biologie/ ”基于 神经 网 络 算法 提高 同 源 建 模 准确 性 的 预测 











urbm/bioinfo/esypred/ 
LOOPP http: //cbsuapps.te.cornell.edu/loopp.aspx — d& T & 4 fii e 86r — 412r B2 VR B UTER VA, 
别 算法 
FUGUE http: //tardis.nibio.go.jp/fugue/ 扫描 数据 库 的 结构 谱 , 计 算 序 列 结构 的 适应 性 打 


分 ,通过 序列 和 结构 比 对 预测 蛋白 质 折 蔡 
HMMSTR http: //www.bioinfo.rpi.edu/~bystre/ ”基于 隐 马 尔 科 夫 模型 预测 蛋白 质 三 级 结构 


hmmstr/server.php 


三 、 对 结构 预测 结果 的 评价 》》) 


面 对 多 种 的 模型 和 预测 方法 ,有 多 种 公共 范围 的 实验 评估 方法 ,主要 是 LB、CASP 和 
CAFASP EVA 等 方法 。 

1. EVA 哥伦比亚 大 学 的 研究 者 们 提供 了 一 种 以 连续 的 自动 化 .大 规模 的 工作 方式 进 
行 蛋白 质 结 构 预 测算 法 评估 的 Web 服 务 器 EVA( http: //cubic.bioc.columbia.edu/eva )。 目 前 ， 
EVA 评估 了 一 系列 在 网 上 可 获得 的 预测 算法 的 表现 。 每 周 ,最 新 被 测定 结构 的 蛋白 质 的 序 
列 被 自动 提交 到 预测 服务 器 ,然后 返回 评测 结果 ,并 形成 摘要 ,在 网 上 发 布 。 

2. CASP ”CASP 是 在 大 规模 实验 的 基础 上 对 蛋白 质 结构 预测 进行 测评 的 方法 。 测 评 工 
作 分 为 三 步 : 从 实验 研究 协会 收集 并 确定 预测 目标 蛋白 ,从 结构 模型 研究 协会 获得 预测 结 
果 , 讨 论 和 测评 。 相 关 的 具体 结构 由 X 射 线 衍射 晶体 检测 学 家 和 磁 共 振 波 谱 学 家 提供 。 预 测 
目标 蛋白 涉及 了 三 个 预测 领域 : 模型 比 对 , 折 和 县 识别 和 从 头 预测 方法 。 

3. LiveBench ( LB ) 实 验方 法 该 实验 方法 由 Rychlewski 和 Fischer 创 建 。 每 周 收集 新 公 
布 的 蛋白 质 结 构 ,利用 这 些 相 对 大 量 的 预测 靶 , LB 不 断 地 对 各 自动 服务 硕 进 行 能 力 评估 , 约 
半年 评估 这 些 预测 方法 一 次 。 

另外 ,对 蛋白 质 三 维 结构 的 实验 或 理论 模型 进行 检查 以 发 现 可 能 错误 的 还 有 其 他 的 方 
法 ,如 PROCHECK 和 WHAT_CHECK 等 。 开 发 更 复杂 和 自动 的 计算 机 建 模 方 法 将 极 大 地 增加 
结构 基因 组 建 模 蛋 白 的 范围 。 在 该 领域 关键 的 问题 包括 : QD 对 于 在 PDB 库 中 相似 的 序列 ( 尤 
其 是 那些 与 靶 蛋 白 弱 或 远 距离 同 源 的 ) 如 何 确定 正确 的 模板 和 如 何 优化 模板 使 其 与 天 然 构 
象 相近 ; @) 若 序列 无 合适 的 模板 ,如 何 从 头 开始 进行 正确 拓扑 的 建 模 。 

随 着 人 们 对 和 蛋白质 序 列 结构、 功能 相互 关系 的 更 深入 的 了 解 .技术 的 不 断 进步 以 及 
新 算法 、 新 方法 的 呈现 ,基于 实验 和 预测 方法 将 会 有 越 来 越 多 的 蛋白 质 结构 被 精确 解析 和 
获得 。 
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Section 4 Function Analysis Based on Protein Structure 


非 催 化 保守 功能 域 经 常 介 导 蛋白质 与 蛋白 质 间 的 相互 作用 ,这 些 多 肽 识别 模块 对 多 个 
重 白 质 复合 物 的 装配 至 关 重 要 。 功 能 域 数据 库 与 功能 域 阵列 联 合 应 用 ,使 蛋白 质 间 的 相互 
作用 探索 更 容易 。 和 蛋白 质 间 序 列 相 似 性 高 于 40% 时 ,该 蛋白 质 同 其 序列 相似 蛋白 可 能 有 某 
些 由 保守 序列 发 挥 的 相同 生物 化 学 作用 ; 和 蛋白 质 间 序列 保守 性 低 于 40% 时 ,可 从 高 级 结构 预 
测 功能 。 有 蛋白 质 有 多 个 功能 域 可 对 应 该 蛋白 质 的 某 些 精细 功能 。 从 高 级 结构 预测 功能 实际 
上 是 预测 蛋白 质 的 某 些 局 部 的 基本 生物 化 学 作用 而 不 是 全 部 生物 学 功能 。 按 蛋白 质 功能 分 
类 的 数据 库 如 SPIN-PP 、MIPS 等 ,为 新 蛋白 功能 预测 提供 了 很 多 有 用 信息 ， 


一 、 蛋 白质 结构 与 功能 基础 》》 


和 蛋白质 的 空间 排列 在 行使 功能 时 起 至 关 重 要 的 作用 。 酶 活性 的 研究 表明 A op 
有 一 小 部 分 参与 催化 活性 位 点 ,而 其 余 的 极 大 部 分 仅 用 作为 形成 和 固定 活性 位 点 的 稳定 基 
础 。 因 此 ,具有 不 同 的 一 级 甚至 三 级 结构 的 蛋白 质 可 能 具有 相似 万 至 完全 相同 的 生物 化 学 
功能 。 

在 进化 中 保守 的 和 蛋白质 高 级 结构 通常 对 应 某 些 保守 的 精细 生物 化 学 功能 , 故 结 构 相 似 
的 蛋白 质 会 有 某 些 相似 的 精细 生物 化 学 功能 。 对 已 知 结构 的 蛋白 质 进行 分 类 ,搜寻 同类 重 
白 的 功能 是 预测 目标 重 白 功能 的 有 效 手段 。 

最 早 基于 结构 进行 蛋白 质 功 能 注释 的 方法 是 搜索 与 目标 和 蛋白 质 结 构 相 似 的 重 日 质 ,并 
将 其 功能 转移 给 目标 蛋白 质 。 此 过 程 中 需要 进行 蛋白 质 的 结构 比 对 和 判断 结构 相似 程度 。 
可 将 这 种 相似 性 估 值 转化 为 序列 比 对 问题 ,利用 序列 比 对 经 典 算法 来 解决 结构 比 对 问题 ,如 
DaliLite、SSM、STRUCTAL、MultiProt 和 3DCoffee 等 。 基 于 “具有 相似 功能 的 蛋白 质 定位 于 结 
构 空 间 图 中 相 邻 近 的 位 置 "，Hou 等 ( 2005 ) 使 用 多 维度 标 度 技术 ( multi-dimensional scaling, 
MDS ) 构建 了 一 个 和 蛋白质 结构 空间 图 ( SSM ), 根 据 DaliLite 结 构 比 对 方法 进行 相似 性 打分 ,最 
终 在 构建 的 结构 空间 中 按照 距离 国 值 将 一 个 新 的 蛋白 质 归 类 到 某 个 功能 类 别 中 。 

还 有 一 些 方法 试图 将 结构 相似 性 方法 与 其 他 方法 结合 进行 功能 决策 。 例 如 ,考虑 一 个 
系统 发 育 上 下 文中 的 结构 相似 性 ,会 增加 功能 注释 的 精确 性 。 综 合 方法 致力 于 在 特定 生物 
学 背景 下 解决 结构 比 对 问题 ,有 助 于 提高 结构 功能 预测 的 精确 性 。 
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二 、 和 蛋白 质 结构 与 功能 关系 数据 库 >> 


入 日 质 结构 与 功能 关系 数据 是 进行 重 白 质 功 能 预测 及 重 白 质 设 计 的 基础 。 目 前 已 有 一 
些 重 日 质 结构 与 功能 关系 的 数据 库 , 如 PIR、Pfam 和 InterPro 等 。 


(一 ) Pfam 数 据 库 


Pfam( the protein families database ) 是 通过 自动 比 对 构建 的 重 白 质 结构 域 家 族 数 据 库 , 它 
收集 了 大 量 的 入 日 质 多 重 序 列 排 布 以 及 HMMs( profile hidden Markov models ) 文 御 的 数据 ， 
将 具有 绪 构 相似 性 的 序列 归 为 一 类 ,可 用 类 的 名 称 查询 到 原始 序列 比 对 信息 。 它 可 广泛 用 
于 通过 序列 比 对 推测 重 白 质 结 构 域 排 布 形式 及 其 功能 等 领域 。 最 新 的 Pfam 25.0 版 本 涵盖 
了 12 273 个 蛋白 质 家 族 ,这 些 Pfam 家 族 是 基于 SWISS-PROT 以 及 TrEMBL 中 的 蛋白 质数 据 的 。 
应 用 Wise 2 软件 包 可 以 用 基因 组 DNA 对 Pfam 文 库 进 行 直 接 搜索 ,在 地 址 栏 中 输入 http: //pfam. 
sanger.ac.uk/ 打开 Pfam( 图 4-19 )。 有 多 个 网 站 文 持 这 类 数据 库 和 搜索 。 


wellcome trust 
~ sanger HOME | SEARCH | BROWSE | FTP | HELP | ABOUT am 
EE institute iex) 
Pfam 25.0 (March 2011, 12273 families) 


The Pfam database is a large collection of protein families, each represented by multiple sequence 
alignments and hidden Markov models (HMMs). 


QUICK LINKS YOU CAN FIND DATA IN PFAM IN VARIOUS WAYS... 
SEQUENCE SEARCH Analyze your protein sequence for Pfam matches 
VIEW A PFAM FAMILY View Pfam family annotation and alignments 
VIEW ACLAN _ See groups of related families 
VIEW A SEQUENCE Look at the domain organisation of a protein sequence 
VIEW A STRUCTURE Find the domains on a PDB structure 
KEYWORD SEARCH Query Pfam by keywords 


SUMP TO [pneranjaccession or} GED 


Enter any type of accession or ID to jump to the page for a Pfam 
family or clan, UniProt sequence, PDB structure, etc. 


Or view the help pages for more information 


图 4-19 ”Pfam 数据 库 主 页 


Pfam 数 据 库 包含 Pfam-A.seed 和 Pfam-A.full 等 文件 ,这些 是 以 Stockholm 格 式 注 释 的 
“seed” 和 “full” 排 布 ; PfamFrag 是 为 搜索 相 匹 配 的 蛋白 片段 而 特别 设计 的 HMMs 文 件 文 
HE; PfamB 是 以 Stockholm 格 式 注释 的 Pfam-B 家 族 数据 文件 ; Diff 是 用 来 对 Pfam 来 源 数 据 进 
行 更 新 的 文件 ; Pfamseq 是 以 fasta 格 式 注释 的 序列 数据 。Pfam 数 据 库 包括 文本 搜索 、 和 蛋白 质 
HMM 搜 索 、DNA HMM 搜 索 ,浏览 PFAM、NIFAS 和 结构 域 查询 等 几 个 部 分 。 可 进行 多 种 方式 
的 搜索 : CD ECBETEJUMP. TO 中 输入 要 搜索 重 白 质 的 Pfam accesion 或 ID; @) 也 可 以 在 VIEW A 
SEQUENCE 中 输入 在 UniProt 、NCBI 或 metagenomic 序 列 数 据 库 中 已 有 香 白 质 的 序列 accesion 
或 ID; (3 或 在 SEQUENCE SEARCH 中 直接 输入 要 查询 的 和 蛋白质 序 列 ,也 可 以 搜索 蛋白 质 的 
FAMILY CLAN 等 。 

另外 , Pfam 还 包括 和 蛋白质 的 功能 注释 .参考 文献 以 及 与 其 相应 家 族 信息 相 链 接 的 数 
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ti PE. BE PfamZ We 1 FR "seed alignment”( 由 家 族 中 具有 代表 性 的 成 员 构 成 ) 和 “full 
alignment”( 所 有 家 族 成 员 构 成 ) 两 部 分 。 所 有 排 布 都 采用 来 源 于 Pfamseq 的 数据 。 在 “seed 
alignment” 基 础 上 应 用 HMMER( http: //hmmer.wustl.edu ) 建立 HMM 文 件 对 Pfamseq 序 列 数据 
库 进 行 搜索 。Pfam 的 重要 功能 包括 将 蛋白 质 快速 自动 划分 和 不同 的 结构 域 家 族 。 当 前 主要 
运用 HMMer 软 件 对 重 白 质 翻 译 进 行 注释 ,或 应 用 Gene Wise 2 软件 直接 预测 基因 并 注释 基因 
组 DNA。GeneWise 的 检测 结果 表明 ,在 同 源 区 域内 它 预 测 基因 的 准确 性 可 达到 98%。 结 构 
域 边界 选择 错误 可 能 造成 家 族 分 类 重合 或 遗漏。 但 随 着 Pfam 数 据 库 的 不 断 完善 ,其 功能 将 
日 趋 完 善 。 

[ 例 4-4 在 Pfam 数 据 库 中 查询 人 类 原 癌 基因 VAV 

首先 ,进入 Pfam 数 据 库 的 首页 ,点 击 VIEW A SEQUENCE, ,输入 人 类 原 癌 基 因 VAV 编 码 蛋 
白质 的 UniProt ID( P15498 ) 进行 搜索 (图 4-20 ). 

L wellcome trust 

Ki sanger 
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Pfam 


HOME | SEARCH | BROWSE | FTP | HELP | ABOUT 


Pfam 26.0 (November 2011, 13672 families) 


The Pfarn database is a large collection of protein families, each represented by multiple sequence 
alignments and hidden Markov models (HMMs). More... 


QUICK LINKS 
SEQUENCE SEARCH 
VIEW A PFAM FAMILY 
VIEW A CLAN 

VIEW A SEQUENCE 
VIEW A STRUCTURE 
KEYWORD SEARCH 


YOU CAN FIND DATA IN PFAM IN VARIOUS WAYS... 
Analyze your protein sequence for Pfam matches 

View Pfam family annotation and alignments 

See groups of related families 

Look at the domain organisation of a protein sequence 
Find the domains on a PDB structure 


Query Pfam by keywords 





mero [me GED 
Enter any type of ac “ag or ID to jump to the page for a Pfam family or 
clan, UniProt sequence, PD t tc. 
Or view the help pages for moh D 
在 搜索 框 中 输入 P15498 
Recent Pfam blogs? posts BHide this 


Proposed Pfam release changes( (posted 27 February 2012) 


The current Pfam release, version 26.0, took approximately 4 months to nurse through the various 
stages of updating the sequence database, resolving overlaps between families, rebuilding the MySQL 
database and performing all of the post-processing that constitutes the ‘release’ The production team 
strives to make two releases a year, but I really do not fancy [...] 


The Pfam website in a virtual machine® (posted 26 January 2012) 


Since releasing the new Pfam website four years ago, we've had a steady trickle of mails from users who 
would like to install and run the site within their own local environment. It used to be possible to do just 


图 4-20 查询 人 类 原 癌 基因 VAV 


查询 结果 如 图 4-21 所 示 , 左 侧 Summary 标 签 页 中 包含 VAV 的 基本 信息 : 来 源 、 长 度 及 所 
包含 的 结构 域 信 息 。VAV 共 有 6 种 7 个 结构 域 : CH, RhoGEF, PH, .Cl1_1、SH3_1 、SH2 ,在 图 中 
以 不 同 颜色 表示 ,点 击 各 结构 域 的 链接 可 以 进一步 查看 各 结构 域 的 信息 。 

点 击 左 侧 Sequence 标 签 ,可 显示 该 蛋白 质 的 序列 信息 (图 4-22 ). 

Structures 标 签 页 中 显示 各 结构 域 在 UniProt 及 PDB 中 的 信息 (图 4-23 ), 可 以 用 三 种 形式 
查看 其 对 应 的 三 维 结构 : Jmol, Astex Viewer, SPICE. 
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w 


1 architecture 1 sequence 0 interactions 1 species 


Protein: VAV HUMAN (P15498) = tid Ly eet od 


Summary 
Features i 
Interactions This is the summary of UniProt entry YAY HUMAN (P1549808). 
Structures Description: Proto-oncogene vav 
TreeFam Source organism: Homo sapiens (Human) (NCBI taxonomy ID 9606) 
j View Pfam proteome data. 
Jump to... 之 DE Length: 845 amino acids 
[cater mac GD Please note: when we start each new Pfarn data release, we take a copy of the UniProt sequence database. This snapshot of UniProt forms the 
basis of the overview that you see here. It is important to note that, although some UniProt entries may be rernoved after a Pfam release, these 


entries will not be rernoved from Pfarn until the next Pfam data release. 


Pfam domains 


This image shows the arrangement of the Pfam domains that we found on this sequence. Clicking on a domain will take you to 
the page describing that Pfam entry. The table below gives the domain boundaries for each of the domains. 





CAR RC 
Pfam A CH 119 
low_complexity n/a k 51 
Pfam A RhoGEF 372 
low complexity n/a 367 结 构 域 信 局 
Pfam A pH 504 
Pram A Gi}. 568 
Pfam A 652 
Pfam A 745 
Pfam A 834 





图 4-21 人 类 原 癌 基 因 VAV 的 查询 结果 
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Protein: VAV_HUMAN (P15498) = ti f+ = 2 


1 architecture 1 sequence 


一 一 一 一 一 一 一 一 -一 一 


Summary Sequence information 


Features 

This is the amino acid sequence of the UniProt sequence database entry with the accession P15498. This sequence is 
stored in the Pfam database and updated with each new Pfam release, but this means that the sequence we store may 
differ from that stored by UniProt. 


"Sequence 


[Interactions 


Structures : Sequence: 1 NHFITTECTEY LIQCEVLPPS ERWTWICAQV CELAQALEIC VLLCOLIML 
à , 51 LPHAINLEEV BLEPQRSOFL CLEBIRITIS TCCEXPCLER SELFEAFILF 
zi 101 DWQIFGEVIY TISALSWTPI AQUPGIEPFP TEFESYGDED IYSCISIQID 
i51 DIVERDEDLY ICVENFTAPG DEIYEULERS FPVSEPPENT FYDERCCCIR 
201 EIQGTERKYT DILCSIQQHF LEPLORFLEP QDIFIIFINI EDLLEMIIEF 
Jumpt b ose oos 25A LEEIEEALGT PGARELYQVE IEYEERELVY GRYCSGVESA SEHLDBYAMA 
p to... XAR NEAR 301 REDWQEKIFT CSQRAINGRF TLEDLIEVPE QRVLEYELLL QFLVEETORA 
S51 MARAL DAENDLAQC NEVEFIGETL POIUNNOISI BULDQSLAHY 

[enter ID/acc Cc» PINES MEE e 


TreeFam 


Toe Eti. e 651 PONEVEPTVH GCPPQILSVHI TYAGPEERAG AESILANESD CTFLVEQEVK 

102 DAREFAISIE YUVEVIHIEI NIAPCLYEIT PIIAFECLTE LVEFYQQISL 

E Sic tle 751 EICFESIDTI LOFPFEEPEE KIISEPAVCS TEYPCTAEAR YDPCARDESE 
^ .. 90i LSLKECDIIE ILBEECQQCT WECFIYCENG WFPANTVEFD YSEYC 


BESESEBSSOBSHUEUBEE 


Show the unformatted sequence. 


. Checksums: CRC64: = AC3BC9736FD2F 138 
+ MDS: 3b6f9f9024015da2afS65d5489f71d1a 








Comments or questions on the site? Send a mail to pfam-help@sanger.ac.uk. Our cookie policy. 
The Wellcome Trust 


图 4-22 人 类 原 癌 基因 VAV 的 序列 信息 
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J wellcome trust 
U sanger HOME | SEARCH |} BROWSE | FTP | HELP | am 


ABOUT 


institute [keyword search ATD 


Protein: VAV_HUMAN (P15498) "ro o uj DK Mer E 


1 architecture 1 sequence O interactions 





Summary Structures 
Features 
Sequence For those sequences which have a structure in the Protein DataBank(*', we use the mapping between UniProt ($', POB and 


Pfam coordinate systems from the MSD group, to allow us to map Pfam domains onto UniProt three-dimensional 
Interactions ' structures. The table below shows the mapping between Pfam domains, this UniProt entry and a corresponding three 
dimensional structure. 


TreeFam 


516 - 568 
516 - 568 


4 - 119 
4 - 119 
403 - 504 
403 - 504 
198 - 372 
198 - 372 
671 - 745 
28 - 102 


Jump to... * 
[eater nr (2) dier - 


403 - 504 
198 - 372 


671 - 745 


PrP OPO > © PO DS 





Comments or questions on the site? Send a mail to pfam-help@sanger.ac.uk. Our cookie policy 
The Wellcome Trust 


图 4-23 人 类 原 癌 基 因 VAV 的 结构 信息 
在 Jmol 中 查看 C1_1 的 A 链 在 PDB 中 的 三 维 结构 ,如 图 4-24 中 紫色 所 示 。 


sanger 


PDB entry 3KY9 





mut mp ,A r 

ESS | - 

Va eos ot PDB ey 
em Ane ee 






A $16 56 VAV HUMAN 516 S68 C1 1(PF00130) 
å 4 119 YAY HUMAN + 119 CH (_PF00307) 
A 403 50 VAY HUMAN 403 504 PH ( PF00169) 


A 4 
B 198 372 VAV HUMAN 198 372 RhoGEF ( PF00621) TUBE v 


图 4-24 人 类 原 冶 基因 VAV 的 Cl 一 1 的 A 链 的 三 维 结 构 
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CHAPTER 4 PROTEI 
(二 ) PIR 数 据 库 


PIR 全 称 为 The protein information resource, 是 一 个 集成 了 关于 蛋白质 功 能 预测 数据 的 
公共 资源 数据 库 , 其 目的 是 支持 基因 组 / 绰 白 质 组 研究 。PIR 与 MIPS( the Munich information 
center for protein sequences ), JIPID( the Japan international protein information dDatabase ) 合作 ， 
共同 构成 了 PIR- 国 际 蛋 白质 序列 数据 库 ( PSD ) 一 一 一 个 主要 的 已 预测 的 蛋白 质数 据 库 , 包 
括 25 0 000 个 人生 日 。 为 了 提高 乍 日 质 预 测 和 实验 数据 之 间 的 相互 吻合 程度 , PIR 建 立 了 一 套 
系统 ,允许 研究 痢 们 递交 、 分 类 提取 文献 信息 。PIR 提 供 了 在 超 家 族 、 域 和 模 体 水 平 上 对 和 蛋 
Anya. PIRI EHE fA Aa I ea ,并 给 出 了 与 其 他 40 个 数据 库 之 间 的 相互 
参考 。PIR 还 提供 了 一 个 非 元 余 的 蛋白 质数 据 库 ,包括 从 PIR-PSD 、SWISS-PROT TrEMBL, 
GenPept, RefSeq 、PDB 收 集 来 的 约 800 000 条 序列 ,对 每 条 序列 给 出 了 一 个 符合 的 名 称 和 相 
关 文 献 。 为 了 提高 数据 库 的 协同 工作 能 力 , PIR 采 用 开发 的 数据 库 框 架 , 利 用 XML 技术 进行 
数据 发 布 。 在 PIR 的 站 点 上 (http: //pir.georgetown.edu/ ) 也 提供 了 和 常规 的 生物 信息 学 工具 ,以 
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进行 数据 挖掘 。 
(=) 目前 常用 的 蛋 日 质 结 构 和 功能 数据 库 ( 表 4 一 9) 


表 4-9 和 蛋白质 结构 和 功能 关系 数据 库 


数据 库 结构 信息 m 功能 信息 

SignalP 信号 上 肽 http: //www.cbs.dtu.dk/services/SignalP 和 蛋白质 信和 号 肽 信息 

ScanProsite “结合 位 点 http: //us.expasy.org/tools/scanprosite 检索 Prosite 数 据 库 的 快捷 方式 , 提 
供 结合 位 点 描述 信息 

Pfam 结构 域 http: //pfam.sanger.ac.uk/ 结构 域 党 用 数据 库 ,提供 结构 域 功 
能 描述 

SMART 结构 域 http: //smart.embl-heidelberg.de 结构 域 第 用 数据 库 , 提 供 结 构 域 功 
AE THI 

InterPro 结构 域 http: //www.ebi.ac.uk/interpro/scan.html £5 M Jh Fe ,提供 结构 域 功 
能 描述 

MATA 拓扑 结构 。 http: //eubic.bioc.columbia.edu/predictprotein/ ”可 自动 链接 到 不 同 的 拓扑 结构 分 

submit. met.html 析 程 序 

TMHMM 跨 膜 结构 http: //www.cbs.dtu.dk/services/TMHMM-2.0 常用 的 跨 膜 结构 预测 平台 

PSORT 细胞 定位 。 http: //psort.nibb.ac.jp/form2.html 查找 细胞 定位 信和 号 或 基 序 

PDB 3D 结 构 http: //www.pdb.org 新 发 现 重 日 质 通 常 为 阴性 结构 ,但 
可 与 同 源 重 白质 进行 结构 比较 

MIPS 物理 结构 http: //www.mips.biochem.mpg.de/proj/yeast/ ”收集 酵母 中 蛋白质 相 互 作用 

互 作 tables/interaction 
COG 同 源 性 http: /Awww.ncbi.nlm.nih.gov/COG tik PR E AaB ,蛋白 
家 族 质 家 族 信 息 
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三 .从 和 蛋白质 结构 推断 其 功能 的 方法 与 分 析 软 件 >> 


蛋白 质 必 须 有 特定 的 三 维 空间 结构 ,才能 表现 其 特定 的 生物 功能 。 和 蛋白 质 的 进化 中 保 
守 的 三 维 结构 通常 对 应 某 些 保守 的 精细 生物 化 学 功能 ,结构 相似 的 蛋白 质 会 有 某 些 相 似 的 
精细 生化 功能 。 因 此 单纯 依 徘 重 白质 序列 相似 性 无 法 了 预测 其 功能 。 

早期 基于 结构 预测 重 日 质 功 能 的 方法 是 搜索 与 目的 集 日 质 结构 相 似 的 重 白 质 ,并 将 其 
功能 赋 给 目的 蛋白 质 ,如 DaLiLite、SSM、STRUCTAL、MultiProt、3Deoffee 等 ,这 些 方法 将 结构 
问题 转化 为 序列 问题 ,利用 经 典 序列 相似 性 算法 来 衡量 结构 相似 性 。 虽 人 然 重 日 质 三 维 结构 
对 预测 蛋白 质 功 能 很 有 意义 ,但 这 并 不 意味 着 知道 蛋白 质 结构 就 一 定 知 道 其 功能 ,这 主要 由 
于 和 蛋白质 功 能 依赖 于 其 所 处 的 细胞 环境 ,而 且 和 蛋白 质 的 折 私 修饰 极 大 地 影响 蛋白 质 功能 ,所 
以 依据 蛋白 质 结构 预测 其 功能 十 分 困难 。 目 前 还 缺少 仅 依赖 于 蛋白 质 结构 直接 预测 其 功能 
的 方法 。 一 般 的 做 法 是 通过 识别 重 白质 结构 上 的 活性 位 点 ,结合 区 域 或 同 源 折 欠 关系 为 预 
测 和 蛋白 质 功能 提供 线索 。 该 方法 很 依赖 重 白质 模型 的 可 靠 性 ,从 头 预 测 法 很 难 满足 重 日 质 
功能 特征 识别 的 需求 ,然而 可 以 利用 模糊 功能 结构 ( fuzzy functional forms, FFFS ) 来 实现 , 即 
使 用 碳 原子 和 侧 链 的 中 心 位 置 来 设计 识别 特定 的 结构 模 体 进而 预测 功能 的 算法 。 

还 有 些 利 用 其 他 途径 来 预测 和 蛋白质 功 能 的 方法 ,如 基于 同 源 的 进化 分 析 方 法 .基于 功能 
域 的 分 析 方 法 、 基 于 基因 表达 簇 的 分 析 方 法 等 。 综 合 不 同方 法 在 特定 生物 学 背景 下 解决 结 
构 比 对 的 问题 ,有 助 于 提高 通过 结构 预测 功能 的 精确 性 。 如 Michael、Edward 等 人 都 结合 
种 方法 进行 研究 并 得 到 相对 理想 的 结果 。 

下 面 介绍 一 些 现 有 的 基于 结构 预测 功能 的 方法 及 软件 ,这些 方法 分 为 四 类 : 

1. 基于 相似 性 的 方法 及 软件 ”对 于 给 定 重 白 质 结构 ,通过 结构 比 对 技术 基于 相似 性 方 
法 ( similarity-based approaches ), 来 识别 结构 相似 重 白 来 预测 功能 。 几 种 第 用 的 基于 相似 性 
预测 功能 的 方法 ( 表 4-10 ), 表 中 前 九 个 是 两 两 比 对 算法 ,最 后 两 个 是 多 重 比 对 算法 。 不 过 这 
些 方 法 会 受到 缺少 确定 功能 的 重 日 质 .结构 域 功能 相似 性 之 间 存 在 差异 等 限制 。 


X4-10 几 种 常用 基于 相似 性 预测 功能 的 方法 


方法 | 参考 文献 
DaliLite Holm and Park 2000 
CE-MC Shindvalov and Bourne 1998 
SSAP Oren go and Taylor 1996 
SSM Krissnel and Henrick 2004 
STRUCTAL Kolodny and linial 2004 
LSQMAN Klevwegt 1996 
Proknow Pal D and Eisenberg D 2005 
VAST Thompson KE et al.2009 
FLORA Redfern OC et al.2009 
MultiProt Shatsky et al.2004 


3DCoffee QO’ Sullivan et al.2004 
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另外 ,基于 FSSP 数 据 库 设计 的 PHUNCTIONER 方 法 ,通过 识别 每 个 蛋白 质 中 CGO 分 类 
特异 的 结构 位 点 ,对 蛋白质 残 基 保 守 性 进行 Z 值 ( Z-score ) 计算 来 预测 功能 ,精确 度 达 到 
75%~90%。ROC 分 析 结 果 显 示 其 精确 性 和 灵敏 度 比 基 于 简单 序列 的 方法 更 高 。 

还 有 ,基于 多 维 标 度 技术 ( MDS ) 的 方法 ,依据 具有 相似 功能 的 和 蛋白质 相互 近邻 的 推 斯 ， 
将 和 蛋白质 定 位 在 蛋白 质 结 构 空 间 图 (SSM ) 中 ,使 用 DaliLite 方 法 进行 打分 判断 蛋 日 质 的 CO 分 
类 。 同 样 通过 ROC 分 析 显 示 ,该 方法 同样 好 于 基于 简单 序列 相似 性 的 方法 。 

[ 例 4-5 ] 用 ProKnow 预 测 人 类 乙 醛 脱氧 酶 的 功能 

(1 ) 打 开 ProKnow( http: //services.mbi.ucla.edu/proknow/ ) (14-25 ). 


UCLA MBI 一 ProKnow UCLA 


Welcome to the ProKnow server. 
ProKnow predicts the function of proteins from sequence or structure. 
Submit your protein sequence or structure for analysis below. Click here for useful tips. 


HELP 


Tips 
Email: Debnath Pal 
Job Parameters E m 


If you would like to submit multiple sequences, use the batch submission form. 


Your email: « Your results will be sent ta that address. 











è nee « Selec species of the or sr ; ( 
NCBI species code: = elect the species o he organi m to which your protein 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一- belongs. Leave blank if unknown. 
BLAST type: |PSIBLAST v| 
Use DIP: DIP On {| « Include data from the Database of Interacting Proteins? 
Use ProLinks: |ProLinks On vi « Include data from the ProLinks? 
Evidence Level: Level Ov ? 
, « Submission of proteins structures is temporarily disabled due to 
Submission type: O Sequence Submission mbi 
Submit Job 


图 4-25  ProKnow € Jf- d 


( 2) fEYour email 处 输入 你 的 邮箱 地 址 以 便 查 询 结 果 返 回 ; 选择 物种 为 人 类 H.sapiens 
( 9606 ); 选中 “Sequence Submission” ; 输入 人 类 乙 醛 脱氧 酶 的 序列 (FASTA 格 式 ) 点 击 
"Submit Job” ”进行 搜索 (图 4-26 )。 

( 3) 等 待 一 段 时 间 后 可 得 到 结果 (图 4-27 ): PUN BS ZR Ae UF] BE HEY “aldehyde 
dehydrogenase | NAD( P ) +] activity” , “oxidoreductase activity” , “phosphopyruvate hydratase 


activity” , “aldehyde metabolic process" , "negative regulation of metabolic process” il “negative 


regulation of glycolysis’ . 


2. 基于 三 维基 序 的 方法 ”这 一 类 方法 试图 识别 三 维基 序 ( 3-dimensional motif-based ), 
即 保守 亚 结构 ,建立 蛋白 质 功能 和 结构 基 序 的 关系 映射 来 预测 蛋白 质 功能 。 通 过 结构 比 
对 的 保守 性 分 析 策 略 , 可 以 有 效 地 预测 和 蛋白质 功能 。 基 于 这 种 策略 有 许多 方法 和 软件 ( 表 
411 j 
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^ 
UCLA MBI — ProKnow UCLA 
Welcome to the ProKnow server. HELP 
ProKnow predicts the function of proteins from sequence or structure. Tips 
Submit your protein sequence or structure for analysis below. Click here for useful tips. Email: Debnath Pal 





Job Parameters 


If you would like to submit multiple sequences, use the batch submission form. 





Your email: j1axu2006068126. coa ] m | « Your results will be sent to that address. af 
. fas oo = 3 « Select the spedes of the organism to which your 

NCBI species code: H. sapiens (9606) M protein belongs. Leave blank if unknown. 

BLAST type: PSIBLAST ¥ 

! « Include data from the Database of interacting 

Use DIP: DIP On ¥ eed 

Use ProLinks: ProLinks On * « Include data from the ProLinks? 

Evidence Level: Level 0 v. «? 

Submission type: ©: Sequences Submission « Submission of proteins structures is temporarily 


disabled due to maintenance 


Sequence Submission 


FASTA File: B os u 

FASTA Sequence: E I | — DEUM "E « Either upload à 
LAGCIKTLRYCAGWADKIQGRTIPIDGNFFTYTRHEPIGVCGQIIPWNFPLVMLIWKIGPA ^ ^ ‘xt file in 
LSCGNTVVVKPAEQTPLTALHVASLIKEAGFPPGVVNIVPGYGPTAGAAISSHMDIDKVAF FASTA format 
TGSTEVGKLIKEAAGKSNLKRVTLELGGKSPCIVLADADLDNAVEFAHHGVFYHQGQCCIA Ii the 
ASR IF VEESI YDEF VRRSVERAKKY ILGNPLTPGVTQGP Q IDKEQYDK I LDLIESGKKEGA ec 


sequence, or 


KLECGGGPWGNKG YFVQP TVFSNVTDEMR I AKEE IFGPVQQ IMKFKSLDDV IKRANNTF YG paste the 

LSAGVF TKDIDKAITISSALQAG TVWVNCYGVVSAQCPFGGFKMSGNGRELGEYGFHEYTE ~ sequence (or 

VKTVTVK ISQKNS FASTA file) into 
this box. 


图 4-26 在 ProKnow 主 界面 中 输入 要 搜索 的 蛋白 质 序列 及 其 他 参数 


UCLA MBI — ProKnow: Job #435 UCLA 





Job ID & Status: #435, submitted on 03/14/12 23:46:36 - Done 
Email address: jiaxu200606@126.com - Email Results 

NCBI species code: H. sapiens (9606) 

BLAST type: PSIBLAST 

Use DIP: DIP On 

Use ProLinks: ProLinks On 

Evidence Level: Level 0 

FASTA Sequence: 501 residue sequence - Show: 


Prediction Results | 


Prediction results for your job are below. 
Questions how to interpret these results? Click here for information. 


| Function & Process || Gene Ontology Graphs || Clue Details 


Description 
Type Term Evidence Rank Clues 
Function 0004030 0.5133 1.0 4 aldehyde dehydrogenase [NAD(P)+] activity 
Function 0016491 0.3209 1.0 4 oxidoreductase activity 
Function 0004634 0.1658 1.0 4 phosphopyruvate hydratase activity 
Process 0006081 0.5133 1.0 4 aldehyde metabolic process 
negative regulation of metabolic process; GO:0009892 ; 
Process 0008152 0.3209 1.0 " synonym:down regulation of metabolic... 
p 0006096 0.1658 1.0 4 negative regulation of glycolysis; GO:0045820 ; synonym:down 


regulation of glycolysis ; 


图 4-27  ProKnow?2£ ž € zr HH 
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表 4-11 几 种 常用 的 基于 三 维基 序 预测 功能 的 方法 


方法 描述 
SITE 算 法 数据 库存 储 了 酶 活性 位 点 保守 基 序 信息 ,通过 位 点 匹配 程序 寻找 关键 的 功能 


位 点 残 基 作为 保守 残 基 ; 但 是 在 处 理 高 度 同 源 重 白 时 会 遇 到 其 残 基 不 保守 的 
情况 ,因此 需 仔 细 分 析 这 些 信息 预测 功能 


TESS 算 法 采用 几何 散 列 算法 ,通过 模板 分 析 和 重合 从 和 蛋白 质 的 高 级 结构 中 寻找 保守 的 
必需 残 基 , 将 未 知 蛋 白 与 必需 残 基 进 行 比 对 预测 其 功能 ,但 该 方法 对 高 级 结构 

FFFs( 模 糊 功 能 形态 ) 该 方法 基于 几何 形状 . 残 基 一 致 性 和 香 白 活性 位 点 的 证 实 对 各 日 质 进行 三 维 
描述 来 预测 蛋白 质 功 能 

SPASM 同时 用 主 链 w 碳 原 子 和 侧 链 基 团 作为 分 析 对 象 , 寻 找 并 列 的 保守 残 基 , 并 用 于 
搜索 结构 数据 库 中 能 匹配 的 已 知 功 能 重 日 进而 预测 功能 

FCANAL Fast Calculable Protein Function ANALyzer, 通 过 定义 重要 功能 残 基 构建 kernel 功 
能 位 点 ,对 其 他 残 基 构 建 相似 性 矩阵 ,进而 预测 功能 

ProFunc server 对 查询 蛋白质 结 构 , 包 括 序列 和 结构 motif 搜 索 . 5 PE fv 3 1H 3 A = De DE EU 


较 , 进 行 基于 结构 和 序列 的 功能 预测 


还 有 一 些 数 据 库 可 用 于 识别 重 白 结 构 域 及 新 和 蛋白 功能 了 预测, 如 PROCAT、PROSITE、 
PRINTS、SMoS 和 DSMP 等 。 

3. 基于 表面 的 方法 “一 个 蛋白 质 结构 被 定义 为 一 个 由 三 组 坐标 组 成 的 坐标 组 ,每 组 坐 
标 表示 对 应 氨基 酸 的 空间 位 置 ,这 表示 分 子 内 的 相互 作用 会 影响 氨基 酸 水 平 或 原子 水 平 上 
特定 的 生物 功能 。 而 蛋白 相互 作用 通常 由 于 分 子 表 面 互 补 性 而 发 生 , 因 此 通过 生日 质 表 面 
结构 的 信息 来 预测 功能 的 方法 被 提出 。 

常用 的 方法 是 用 图 论 技 术 来 解决 表面 匹配 问题 ,将 来 自 PDB 数 据 库 的 和 蛋白质 结 构 信 息 
用 MSP 算 法 分 析 其 静电 淤 能 和 朴 水 性 ,进而 分 析 其 生化 功能 的 静电 表面 ( eF-site ) 推 测 功 能 。 
另 一 种 方法 由 Binkowski 等 提出 ,基于 和 蛋白质 表 面 模型 分 析 深 剂 或 配 基 与 重 白 质 的 关系 ,推测 
重 日 质 功 能 。 他 们 认为 溶剂 或 配 基 可 以 帮助 重 日 质 发 挥 功 能 ,然后 用 Edelsbrunner 方 法 分 析 
蛋白 质 结 构 ,依据 pvSOAR 数 据 库 进行 预测 估 值 。 另 外 SURFACE 数 据 库 也 可 对 和 蛋白质 进行 局 
部 表面 特征 ( local surface patterns, clefts ) 模式 识别 ,数据 库 选 用 SURFNET 算 法 识别 clefts ,使 
用 PROSITE 数 据 库 进行 GO 功能 注释 ,结合 RMSD 和 PAM 和 矩阵 进行 测量 打分 、 预 测 功 能 ,精确 
性 可 达 90%。 | 

4. 基于 机 器 学 习 的 方法 «AAA AUI PST TE SV MFIKNNGS , fff 2 Ec FOG 2 TJ E 
征 中 识别 最 适合 的 功能 分 类 。 基 于 机 需 学 习 的 方法 在 功能 预测 上 有 着 很 大 的 成 绩 , 如 通过 
数据 挖掘 和 机 融 学 习 方法 的 研究 ,分析 两 个 数据 对 象 之 间 的 相似 性 的 可 变 模 型 来 预测 功能 。 
比较 具有 代表 性 的 方法 有 三 种 : DK simnl S, T ), 基 于 相关 和 氨基酸 对 定义 两 个 亚 结构 之 间 
的 相似 性 ; QK redox suu CSS T ), 基 于 蛋白质 基 序 CxxC 定 义 琉 基 化 合 物 / 二 硫化 合 物 和 氧化 还 原 
酶 重 白 的 功能 相似 性 ; 3Kyppa( Pis Pa ), 前 面 提 到 前 两 种 算法 都 是 依据 氨基 酸 位 点 定义 相似 
性 ,而 该 算法 是 由 给 定 半 径 的 球形 内 的 一 组 氨基 酸 定义 的 。 利 用 核 男 数 构建 分 类 硕 , 主要 有 
K-NN( K-nearest neighbor ) 和 SVM 两 种 分 类 需 , 有 实验 表明 K-NN 比 SVM 有 具有 更 好 的 预测 效 
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Ro TAREE T Bla J JT BY BS aR > n] BY d EA RC E , AE EE XT E A i ak 
的 进一步 研究 ,这 种 方法 会 有 更 好 的 效 末 。 


四 、 蛋 白质 相互 作用 与 蛋白 质 功能 >> 


生物 系统 的 功能 是 由 分 子 之 间 的 相互 作用 而 不 是 单个 分 子 决定 的 。 功 能 基因 组 学 的 一 
个 主要 任务 就 是 理解 蛋白 质 相互 作用 规律 ,这 一 工作 对 曾 明 重 日 质 功能 并 进一步 理解 生物 
学 过 程 有 重要 意义 。 已 有 大 量 高 通 量 的 实验 方法 可 用 于 探测 重 日 质 相 互 作用 。 用 实验 方法 
研究 蛋白 质 相 互 作 用 既 费 时 又 费力 ,这 使 得 目前 拥有 的 相互 作用 数据 只 占 全 部 数据 的 一 小 
部 分 ,由 此 构建 的 相互 作用 网 络 也 极 不 完整 。 作 为 一 种 补充 ,发 展 理 论 预测 方 法 就 尤为 迫切 。 
从 蛋白质 结构 出 发 预测 和 蛋白质 - 重 白 质 相互 作用 ( 重 晶 质 对 接 ) 能 够 揭示 它们 的 功能 机 制 以 
及 在 细胞 中 起 到 的 作用 。 现 有 的 预测 方法 有 基于 DNA 序 列 的 基因 近邻 法 、 基 因 融 合法 种 
系 轮 廓 发 生 法 ,也 有 基于 和 恒 日 质 一 级 结构 的 方法 和 基于 全 日 质 三 级 结构 的 方法 。 主 要 方法 
如 下 : 

1. 同 源 建 横 ”将 已 知 三 维 结构 的 蛋白 质 复合 物 相 互 作 用 的 信息 应 用 到 与 组 成 该 复合 
物 的 氨基 酸 序列 的 同 源 重 白质 间 。Aloy 等 建立 了 这 个 方法 ,他 们 通过 评估 同 源 重 白 家 族 中 
已 知 3D 结 构 的 复合 物 的 接触 点 特征 ,给 出 判断 ,并 最 终 用 实验 的 方法 进行 验证 ,准确 率 达 到 
[f 659. 

2. 计算 机 模拟 分 子 对 接 早期 的 分 子 对 接 方法 用 分 子 力学 方法 或 者 量子 化 学 方法 计 
算 小 分 子 之 间 的 识别 ,在 一 些 分 子 模拟 软件 包 中 也 含有 分 子 对 接 的 模块 。 但 是 由 于 算法 和 
计算 机 处 理 能 力 的 限制 ,早期 的 对 接 方法 较 难 处 理 含 有 大 分 子 的 分 子 对 接 过 程 。1995 年 由 
Accelrys 公 司 开 发 的 计算 化 学 软件 Affinity 上 市 ,这 是 第 一 个 可 以 进行 有 大 分 子 参与 的 分 子 对 
接 过 程 的 商业 化 分 子 对 接 软件 。 此 后 ,商业 化 和 免费 的 分 子 对 接 软 件 层出不穷 。 现 在 应 用 
中 的 分 子 对 接 软 件 涵盖 了 刚性 对 接 、 半 柔性 对 接 、 柔 性 对 接 等 各 种 对 接 方 法 ,在 能 量 优化 方 
面 则 使 用 了 人 工 神 经 网 络 .遗传 算法 ,模拟 退火 禁忌 搜索 、 局 部 搜索 等 各 种 方法 。 目 前 的 分 
子 对 接 方法 是 研究 小 分 子 与 大 分 子 相 互 作用 模式 .生物 大 分 子 间 识 别 .分 子 目 组 装 . 超 分 子 
结构 等 诛 题 的 常用 方法 之 一 。 

3. 基于 二 级 结构 ”统计 计算 重 白 复合 体 相 互 作 用 结合 区 域内 不 同 二 级 结构 及 超 二 级 结 
构 出 现 的 频次 ,所 统计 的 二 级 结构 主要 分 为 三 类 : a 螺旋、B 折 和 无 规则 卷曲 ; 超 二 级 结构 
是 在 二 级 结构 基础 之 上 的 结构 类 型 ,工作 中 主要 采用 四 种 分 类 类 型 : o HA, o 发 夹 、B 发 
3c . 拱 形 结构 。 在 统计 数据 的 基础 上 计算 不 同 结构 类 型 出 现在 相互 作用 结合 区 的 相对 倾 问 
值 , 并 以 此 对 蛋白质 亚 基 对 进行 打分 ,将 打分 分 值 作为 特征 值 输入 文 持 回 量 机 构建 模型 ,对 
重 白 质 亚 基 相互 作用 进行 预测 。 

4. 基于 结构 域 ”蛋白质 之 间 通 过 特异 性 的 结合 才能 够 发 生 相 互 作 用 ,而 这 些 结合 部 位 
就 是 结构 域 ,因此 ,一 种 现在 比较 流行 的 思想 是 认为 重 白质 间 的 相互 作用 是 由 和 蛋 日 质 结构 域 
之 间 的 相互 作用 导致 的 。 有 学 者 提出 假设 ,结构 域 组 合 间 的 相互 作用 是 入 白 质 相互 作用 中 
的 基本 单元 。 由 于 考虑 到 了 结构 域 间 相 互 作 用 导致 蛋白 质 间 相互 作用 的 所 有 可 能 方式 , 预 
测 效果 有 了 显著 提高 。 但 是 该 模型 仍然 存在 缺陷 , 即 为 了 获取 竺 预测 样本 中 所 有 结构 域 组 
合 对 相互 作用 的 概率 ,需要 大 量 蛋 白质 相互 作用 数据 以 及 相应 蛋白 质 的 结构 域 注释 信息 ,而 
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训练 样本 的 不 足 将 导致 无 法 获取 所 有 结构 域 组 合 对 的 统计 特征 ,从 而 只 能 评价 部 分 蛋白 质 
对 的 相互 作用 关系 。 使 用 支持 向 量 机 分 析 结 构 域 组 合 对 序列 的 氮 基 酸 理化 性 质 得 到 其 序列 
特征 值 , 同 时 采用 统计 分 析 的 方法 获取 其 频率 特征 值 ,最 后 通过 融合 上 述 两 种 特征 估计 该 结 
构 域 组 合 间 发 生 相 互 作用 的 可 能 性 ,并 以 此 预测 得 白 质 间 的 相互 作用 关系 。 

从 已 知 的 蛋白 质 相 互 作 用 中 预测 有 哪些 结构 域 间 存在 相互 作用 ,然后 再 利用 预测 结果 
对 待 测 蛋 白质 对 之 间 的 相互 作用 情况 进行 判别 。Gomez 等 首先 提出 来 了 一 个 简单 的 吸引 模 
型 ,并 定义 了 和 蛋白 质 相 互 作 用 的 概率 与 结构 域 相互 作用 的 概率 关系 模型 。 随 后 ,他们 又 对 该 
模型 进行 了 改进 ,提出 来 了 AR 模 型 ,在 Pfam 数 据 库 上 得 到 了 较 好 的 测试 仪 结 

Deng 等 使 用 极 大 似 然 佑 计 MLE 的 方法 来 寻找 结构 域 间 的 相互 作用 ,并 反 过 来 预测 重 日 
质 间 的 相互 作用 ,该 方法 能 够 对 不 完整 的 数据 集 和 数据 集中 的 错误 进行 有 效 的 处 理 。Liu 等 
将 MLE 方 法 进行 了 改进 ,使 其 能 够 利用 多 个 物种 中 的 重 白 质 相互 作用 数据 ,提高 了 结构 域 相 
互 作用 预测 的 性 能 。Hayashida 等 将 MLE 中 的 问题 进行 了 重新 定义 ,使 用 线性 规划 的 方法 , 通 
过 最 小 化 训练 集中 观测 的 相互 作用 与 预测 的 相互 作用 之 间 的 误差 来 对 结构 域 间 的 相互 作用 
进行 预测 ,得 到 了 较 好 的 预测 效果 。Guimaraes 等 同样 使 用 了 线性 规划 方法 ,但 其 假定 重 日 
质 间 的 相互 作用 符合 简约 原则 ,并 以 此 建立 线性 规划 的 约束 条 件 。 

Huang 等 将 结构 域 相互 作用 问题 转化 为 集合 履 蓄 问题 ,并 提出 了 相应 解决 方案 。Singhal 
等 使 用 遗传 算法 ,利用 参数 优化 的 思想 计算 结构 域 间 的 相互 作用 概率 。Riley 等 使 用 结构 域 
对 排除 分 析 方 法 ,从 多 个 物种 的 蛋白 质 相 互 作用 数据 中 寻找 潜在 的 结构 域 相互 作用 对 。 

还 有 一 种 从 和 蛋白 质 域 信息 出 发 ,分 析 互 作 和 集 昌 质 对 和 不 互 作 集 日 质 对 各 目的 特征 模式 ， 
SET BOR RAE RIE aT FF DU S oA EAE FPR Avon Mering 数 据 集 和 DIP 数 据 
库 中 的 数据 测试 了 该 方法 ,其 预测 的 敏感 性 和 特异 性 分 别 为 92% 和 94%。 基 于 上 述 方法 , 开 
发 了 网 页 工具 用 于 预测 和 蛋白质 对 的 相互 作用 (http: //219.217.238.183 : 7001/prepi/index.jsp ). 

5. 基于 结构 特征 的 方法 ”此 方法 注重 和 集 日 质 间 的 物理 相互 作用 ,包括 相互 作用 界面 
( interface ) 及 相互 作用 位 点 ( interaction sites ) 的 预测 .和 蛋白质 相 互 作用 界面 指 的 是 两 条 以 
韭 共 价 键 形 式 ( non-covalent ) 结合 的 多 肽 链 之 间 的 共同 区 域 , 主 要 由 对 重 白 质 结 合 起 关键 
作用 的 、 进 化 速率 低 于 重 日 质 表面 其 他 部 分 的 残 基 所 组 成 。Aytuna 等 人 在 得 预测 数据 集中 
寻找 与 已 知 蛋 白质 相互 作用 界面 的 互补 对 ( complementary pairs ) 结构 相 类 似 的 表面 区 域 ， 
通过 蛋白质 三 级 结构 比 对 以 及 热点 ( hot spots ), 一 种 突变 产生 高 能 量 且 对 和 蛋白质 间 相 互 作 
用 的 亲 和 性 稳定 性 起 重要 作用 的 残 基 匹 配 的 方法 推理 预测 PPI。 例 如 ,已 知 界面 A 与 B 存 
在 相互 作用 ,而 表面 区 域 a,b 分 别 与 A,B 的 结合 位 点 在 结构 上 具有 相似 性 ,从 而 推理 a 与 b 也 
存在 相互 作用 ,结果 表明 该 方法 具有 较 高 的 可 信和 度 。 然 而 ,三 维 结构 已 知 的 重 日 质数 量 的 
有 限 性 限制 了 该 方法 的 应 用 。Nussinov 人 研究 小 组 先后 于 1996 年 和 2004 年 构造 T 4A Jit tA 
互 作 用 界面 的 非 元 余数 据 集 , 界 面 数量 由 最 初 的 351 增 加 至 3799 , 提高 了 该 种 方法 的 预测 
精度 。 此 外 , Gomez、Deng 等 人 通过 观察 两 集 日 质 所 含有 的 结构 域 之 间 是 否 存在 吸引 或 排 
斥 作 用 来 预测 PPI。 他 们 利用 Pfam 数 据 库 提供 的 域 信息 ,分 别 末 用 AM( association method ) 
和 MLE( maximum likelihood estimation ) 方 法 ,估算 相互 作用 重 晶 质 对 所 含 的 结构 域 , 并 计 
算 结 构 域 信息 的 显著 性 和 概率 值 , 以 此 作为 PPI 存 在 的 标签 一 一 这 在 本 质 上 是 一 个 机 需 学 
习 过 程 。 预 测 得 到 的 相互 作用 重 日 质 对 其 编码 基因 表达 谐 具 有 蝇 相 关 性 ,证 明了 该 方法 
的 有 效 性 。 
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6. i AER A PT LR. 

( 1 ) PREPPI( http: //bhapp.c2b2.columbia.edu/PREPPI/ ): 整合 结构 与 非 结构 信息 预测 蛋 
日 质 互 作 的 网 络 工具 。 

( 2 )3DID( http: //3did.irbbarcelona.org/ ): 高 通 量 三 维 结构 已 知 重 白 质 的 结构 域 互 作 数 
据 库 。 

( 3 ) cons-PPISP( http: //pipe.scs.fsu.edu/ppisp.html ): 用 神经 网 络 方法 预测 重 日 质 互 作 的 
网 站 。 输 入 一 个 蛋白质 的 结构 ,可 以 预测 其 与 刀 一 个 重 日 质 结 合 的 位 点 残 基 。 

(4 ) InterPreTS( http: //www.russelllab.org/cgi-bin/tools/interprets.pl ): 通过 三 维 结构 预测 
互 作 的 在 线 工具 。 

| e 6 ] 用 PREPPI 预 测 蛋 白质 互 作 

) 打开 网 址 :( http: //bhapp.c2b2.columbia.edu/PREPPT/ ) (图 4-28 )。 


go 
, Qut ms S > “yy? : . o! 
. t we 2x. 1 e & x » r. i 
PREPPI SEARCH 


Search PREPPI for protein-protein interactions (PPI) involving your protein of 
interest, by protein UniProt accession number (e.g. P03989), gene name (e.g. 
PRNP), protein name (e.g . Histone H2A), or five letter code of PDB and chain ID 
(e.g. 1AKJD). Use "P1: pS" or "P1<=>P2" (e.g. PPARg: PAX) to search for a PPI 
directly. 


Please refer to the Help page for more information of using PREPPI and 
interpretation of results. 


Positive Reference PPI (protein-protein interaction) datasets for manuscript 
“structure-based prediction of protein-protein interactions on a genome- 
wide scale” can be downloaded now. 


^11 Honig Lab 
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(2 ) 在 搜索 框 中 输入 要 查询 蛋白 质 的 名 字 、Uniprot ID 或 对 应 基因 的 名 字 , 如 : 输入 
HLAB 基 因 对 应 的 和 蛋白质 HLA I 型 组 织 相 容 性 抗原 的 Uniprot ID *P03989" , zit; "SEARCH", 
可 得 到 与 其 互 作 和 集 白 质 的 信息 列表 ,结果 如 下 (图 4-29 )。 

结果 包括 所 查询 和 蛋白质 HLA T 型 组 织 相 容 性 抗原 的 Uniprot ID 编码 重 日 质 的 基因 名 E 

质 名 、 和 蛋白 质 功 能 信息 ,同时 还 给 出 了 被 预测 的 与 其 互 作 的 和 蛋白质 的 一 些 统计 信息 如 : 预 
nr epee Jk BUR BUMES ILTESEH EBAT 
0.1 ), 在 数据 库 中 存在 的 互 作 蛋 白质 12 个 。 结 果 列 表 中 的 每 一 行 是 被 预测 为 与 HLA I 型 组 
织 相 容 性 抗原 互 作 的 各 蛋白质 的 信息 , “Prediction code" Man cnki ial el 息 来 源 ， 
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PREPPE 703089 |  PREPPI SEARCH 
Query protein P03989 


Gene names HLA-B HLAB 
Protein name HLA class I histocompatibility antigen, B-27 alpha chain 


Statistics 
High confidence predictions (Score»0.5): 125 


All predi 1): 
Function Involved in the presentation of foreign antigens to the predictions (Score>0.1): 298 
oe Interactions in database: 12 





Interactor Gene names Organism Prediction code PREPPILR Database LR Final prob. latabases References 


P61769 B2M CDABPO092 HOCMA22P human I EE MCP 21096 4625.64 1.00 MT (2,2) 
P01732 CD8A MAL human G E MC P 3455.46 $57.82 1.00 = (i) 
QSNHLG ^ LILRB1ILT2 LIR1 MIR7 human Ms — "c Pp 2767.55 957.82 1.00 = t1) 
Q8N423 LILRB2 ILT4 LIR2 MIR10 human Ms —e mc p 2233.31 357.22 1.00 m u) 
Q95460 MRI human Bose mc p 32193.5 NA 9.98 
Q30201 HFE HLAH human GE mc p 7463.8 NA 0.93 
P30491  HLA-BHLAB human MG c mc p 7328.09 NA 0.92 
P30460 HLA-B HLAB human Bec mc Pp 7328.09 NA 0.92 
P30481 HLA-B HLAB human MG e mc pep 7328.09 NA 0.82 
P30483  HLA-BHLAB human 国 记 se mw ce 7328.09 NA 0.92 
P30495 HLA-B HLAB human Bc E MC P 7328.09 NA 0.92 
P30490 HLA-B HLAB human 国人 se mc p 7328.09 NA 0.92 
029718 HLA-B HLAB human Weecemcp 7328.09 NA 0.92 
p30685 HLA-B HLAB human 国人 se mc p 7328.09 NA 0.32 
P3047 HLA-B HLAB human Mic E MC P 732$.09 NA 0.92 
P30479 HLA-B HLAB human JG e mc p 7322.09 NA 0.92 
P30484 HLA-B HLAB human MPG e mc Pp 7328.09 NA 5.92 
P30462 HLA-B HLAB human JPG e mc pe 7328.09 NA 0.92 
P30493 HLA-B HLAB CDABP0067 human Ge mc p 7328.08 HA 0.92 
Q29940 HLA-B HLAB human Boc «c» 7328.09 NA 0.92 
P18464 HLA-B HLAB human Ma— P S5: mc p 7328.08 Na .92 


图 4-29 查询 蛋白 质 P03989 的 预测 蛋白 质 互 作 结 果 

其 中 Ss 表示 结构 信息 , G 表 示 功 能 信息 , C 表 示 共 表达 , P 表 示 系 统 发 育 , E 和 M 只 在 酵母 数据 
中 有 ,分 别 表示 重 日 质 必 要 性 和 MIPS 人 信息。 字母 上 的 颜色 表明 其 贡献 程度 ,颜色 越 深 页 献 越 
Ko “PREPPI LR” 列 表示 用 贝 叶 斯 网 络 得 到 的 整合 “Prediction code” 列 中 不 同 得 分 的 计算 
预测 LR。“database LR” 表 示 实 验 得 到 的 互 作 在 各 数据 库 中 的 整合 LR。 将 LR 值 标准 化 得 到 
“Final Prob.” 列 中 的 值 。 最 后 两 列表 明 储 存 该 互 作 的 数据 库 及 证 实 文献 。 由 结果 中 可 以 观 
察 到 ,基于 结构 信息 或 以 结构 信息 为 主 预 测 的 互 作 蛋 白质 具有 较 高 的 置信 度 ,并 且 其 互 作 关 
系 在 现 有 Sinn ak wae canoe 如 结果 图 中 列表 显示 的 前 4 个 和 蛋白质。 

(3 ) 可 有 直接 输入 “ 重 日 质 1 : EAE?” Bk EAE ET AA A SEA 
2 的 互 作 情况 。 

例如 ,在 搜索 框 中 输入 一 对 和 蛋白 质 过 氧化 物 酶 体 增殖 物 活 性 受 体 和 配对 重 日 “PPARG: 
PAX9” ,结果 见 图 4-30。 








T elim DOWNLOADS HELP. ABOUT  HONIGLAB 5 
PREPPI PPARG PAX9 | PREPPI SEARCH 

Interactor A P37231 Interactor B P55771 

Organism HUMAN Organism HUMAN 

Gene names PPARG NR1C3 Gene names PAXx9 

Protein name Peroxisome proliferator-activated receptor gamma Protein name Paired box protein Pax-9 
Receptor that binds om oxisome proliferators such as Transcription factor required for normal development of 

Furction hypolipidemic drugs and fatty adds. Once activated by a Fundion thymus, parathyroid glands, ultimobranchial bodies, teeth, 
ligand, the receptor binds to a promoter element in ... view skeletal elements of skull and larynx as well as distal limbs 
more (By ... view more 


Interactor A Organism A Interactor B Organism B Prediction code PREPPILR Database LR Final Prob. Databases References 





P37231 HUMAN P55771 HUMAN S G E MC P 10.47 6 0.02 


图 4-30 查询 蛋白质 对 PPARG 和 PAX9 互 作 结果 
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图 4-30 中 分 别 列 出 了 两 个 互 作 子 蛋 白质 的 Uniprot ID .编码 蛋白 质 的 基因 名 、 蛋 白质 名 
和 和 集 白质 的 功能 信息 。 表 中 各 列 意义 如 上 所 述 。 结 果 表 明和 蛋白 质 PPARG 和 PAX9, 没 有 基于 
结构 的 互 作 信 息 , 只 有 基于 功能 互 作 的 信息 。 其 预测 得 分 为 0.02, 这 表明 它们 互 作 的 可 能 : 
不 大 。 
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第 五 三 
乍 日 质 的 结构 异常 与 疾病 


Section 5 Protein Structure and Diseases 





当 集 日 质保 守 位 点 发 生性 质 截 然 相反 的 突变 时 ,和 蛋白 质 的 高 级 结构 可 能 被 显著 改变 
而 影响 其 功能 。 男 外 ,和 储 日 质 序 列 不 变 而 高 级 结构 发 生 显著 改变 , 例 如 变性 ( denaturation ) 
BY Fa VT Æ misfolding ), 也 会 造成 蛋白 质 功能 的 显著 改变 ,特殊 情况 下 就 会 造成 病理 生理 
现象 。 


一 、 蛋 白质 序列 变化 引发 疾病 》》 


分 子 病 ( molecular disease ) 是 1949 年 由 Pauling 提 出 的 , 现 已 发 现 上 百 种 。 是 指 因 某 种 蛋 
日 质 分 于 一 级 结构 中 的 氨基 酸 残 基 序 列 与 正常 有 所 不 同 而 发 生 的 遗传 病 。 如 : RRA BR 
血 症 ( sickle-cell anemia ) 是 一 种 党 染色 体 隐 性 遗传 疾病 ,患者 的 红细胞 在 缺 氧 状态 下 变 成 
但 刀 形 。 起 因 是 体内 合成 血红 和 蛋白 的 基因 发 生 异 常 ,使 人 血红 和 蛋白 B 亚 基 的 屿 氨 酸 被 谷 氨 
酸 所 取代 ,只 是 一 个 氨基 酸 之 差 , 则 使 患者 的 红细胞 在 缺 氧 状态 下 变 成 饶 刀 形 , 异 和 常 血 红 重 
日 ( HbS ) 从 球状 变 为 纤维 状 , 而 且 易 于 在 红细胞 中 析出 。 在 一 段 时 间 内 ,此 纤维 状 的 HbS 当 
氧 分 压 高 时 , 仍 能 恢复 球状 ,但 在 氧 分 压 降低 时 HbS 又 呈 纤 维 状 ,这 样 几经 恢复 ,使 红细胞 变 
得 很 脆弱 , 极 易 碎 裂 而 发 生 溶 血性 贫血 。 当 个 体 携带 两 个 突变 的 B 亚 基 基因 时 ,会 患 饶 状 细 
胞 贫血 症 。 单 一 拷贝 会 引起 刍 状 细胞 特征 ,但 通常 无 症状 表现 。 编 码 B 亚 基 的 基因 定位 于 
染色 体 11-a 区 ,含有 许多 B 球 蛋白 基因 簇 ,此 区 的 多 态 性 与 疾病 的 严重 程度 有 直接 的 关系 。 


— SARS IRR >> 


SE A CFA] A YY ON RT SY EZEK, 一般 而 言 ,天 然 构 象 主要 由 a -螺旋 
ATG Ls HH ZL MGR DT RR SE B TSS. PG: 享 廷 顿 舞蹈 病 的 发 病 机 制 主 
2253 ARCA BAPE AY LETRA R , FS APE et Se SEY, n] te f A EA A, Bf DL e 
( random coil )It] B —DJr 52 4L . FEA AGE EH I ES AY B HE AR TS IE EJ , a -螺旋 /8B - 
Tr RJ FAI PR BL SEA S 88 NT 23s 7 SE HE E AA a, 5 DES S ERAT I EN. 
4c SLE B Urt MJ. B-HA pi] p UI RT c B AY SUES Ee Bee E, CI IRE 
发 生 交 联 , 溶 解 度 降低 ,最 后 在 胞 质 中 形成 聚合 体 或 在 核 内 形成 包涵 体 。Htt 聚 集体 具有 细 
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胞 毒性 ,可 封闭 转录 因子 , MENZ AR AAR I AC , BOAT IET. - 

Arcs S3 Zi — FP FH Ac: 9 DES] FRA FY FR T EBA BT EA Ao IR] edi - 
有 睹 和 集 日 ( prion protein, PrP ) 是 一 种 能 够 在 正 稼 的 哺乳 动物 的 神经 细胞 表达 的 重 白 ,人 的 PrP 
基因 位 于 20 号 染色 体 ,编码 产生 的 蛋白 称 为 PrPC, 由 GPI 锚 固定 在 细胞 表面 。 在 基因 突变 
或 环境 变化 或 感染 Scrapie 等 条 件 下 ,和 蛋白质 的 组 成 氮 基 酸 顺 序 不 变 , 但 它 的 空间 结构 可 发 
生变 化 ,螺旋 结构 减少 ，B 片 层 结构 增加 , 称 之 为 scrapie associated prion protein ( PrPSe ), 其 
性 质 也 随 之 发 生变 化 ,有 细胞 毒 作 用 ,可 引起 神经 变性 . 胶 质 细胞 增生 和 细胞 外 省 粉 样 沉 积 
等 病变 。 其 变化 形式 为 : PrPS 以 a RIENE, B HENKI% PrPSC'P B Dr 443%, 
易于 聚集 ,形成 具有 细胞 毒性 的 高 分 子 量 的 不 溶性 复合 物 的 沉积 而 引起 病变 (图 4-31 ) 


Garrett & Grisham: Biochemistry, 2/e 
Unnumbered Figure p.979 


(b) 





Saunders College Publishing 


图 4-31 EX HPrin® OSA KF HoH, HME jPriondk OSA $ 2 HPS 
2| BF: Garrett & Grisham, Biochemistry,2nd ed.,1998 : Schematic view of the two structures of 
a protein involved in the neurodegenerative disease of sheep, scrapie. 


阿尔 欧 海 默 病 ( Alzheimer’ s disease ) BAW FF IE ABI DERE SR A A PE OT , 

村 别 是 42 个 氨基 酸 残 基 的 片段 含量 不 成 比例 的 升 高 , B DT MM, A TER TI HE BE BE 

块 。 神 经 纤维 缠 结 主要 由 高 度 磷酸 化 的 微 管 相 关 的 tau 重 日 异 和 折 和 登 聚集 而 成 。 通 过 对 铺 

误 折 全 机 制 的 研究 ,可 以 明确 病理 机 制 , 使 临床 方案 更 具有 效 性 和 精确 性 ,对 遗传 学 和 医学 
研究 具有 一 定 意义 。 


三 、 疾 病 过 程 中 蛋白 质 的 相互 作用 >> 


集 白 质 的 高 级 结构 决定 了 其 在 生物 体内 的 功能 ,多 个 重 白 质 发 挥 作用 时 和 常 需 要 与 其 他 
蛋白 质 协 同 作 用 ,不 同和 蛋白 质 之 间 形 成 复合 体 ( complex )。 每 个 蛋白 质 可 以 看 成 复合 体 的 一 
个 亚 基 ( subunit ), 亚 基 间 相互 作用 ,形成 紧密 的 复合 体 结构 或 共同 组 成 复合 体 的 活性 中 心 。 
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4 A Jee) AR Sn HE BRT ER SF SY TE BS A A ERA , 5 EY 
功能 或 表 型 异常 ,就 会 引发 疾病 。 

大 量 关 于 p53 各 方面 功能 及 其 在 人 类 肿瘤 中 表达 的 突变 蛋白质 的 信息 ,阐明 了 p53 在 癌 
证 发 病 机 制 中 的 重要 作用 。p53 是 一 种 四 聚 体 ,单独 一 个 亚 基 的 突变 就 会 影响 整个 复合 物 的 
活性 ,导致 DNA 结 合 活性 的 减弱 。 目 前 已 经 发 现 超过 14 000 个 与 肿瘤 相关 的 p53 突 变 。 但 人 
类 腺 病毒 的 E6 重 白 可 通过 与 p53 的 Arg72 高 亲 和 性 地 相互 作用 ,同样 可 使 p53 和 蛋白 质 失 去 功 
能 ,阻止 它 对 损伤 DNA 的 修复 ,从 而 导致 子宫 瘤 的 发 生 。 

通过 研究 霍乱 毒素 的 结构 及 功能 ,发 现 其 毒素 是 87kDa 的 六 聚 体 ( 亚 基 组 成 为 AB; ) EA 
质 , 它 通 过 B 亚 基 结 合 在 CM1 的 神经 节 苷 酶 上 ,并 将 A 亚 基 通 过 受 体 介 导 的 胞 吞 作 用 转运 入 
膜 内 。 在 细胞 内 ,二 硫 键 发 生还 原 性 断裂 ,从 A 亚 基 上 释放 一 个 包含 195 个 氨基 酸 残 基 的 片 
段 ,此 片段 催化 ADP- 核 糖 由 NDP* 转 移 至 异 源 三 聚 体 G, 和 蛋白 G, 亚 基 的 Arg187 侧 链 上 ,这 种 糖 
基 化 过 程 持 续 地 激活 腺 苷 酸 环 化 酶 同时 抑制 C。 的 CTP 酶 活性 ,从 而 使 细胞 内 cAMP 水 平 剧烈 
增高 ,导致 肠 道 细 胞 激活 钠 条 ,分 刻 Na"。 为 抵消 氯 化 物 ,水 与 碳酸 氢 盐 也 被 分 泌 出 去 ,最 终 
的 网 络 效应 导致 大 量 水 和 电解 质 缺 失 , 引 发 疾病 ,导致 脱水 症 ,最 终 可 引起 死亡 。 另 外 , 禽 流 
感 病毒 能 否 感 染 人 类 取决 于 它 的 血 凝 素 ( 病 毒 表 面 的 一 种 和 蛋 日 ) 是否 能 够 与 呼吸 道 多 糖 受 
体 结 合 。 人 研究 人 员 借 助 NIGMS 的 一 个 专门 数据 库 ( consortium for functional glycomics ), 进行 
和 蛋白质 与 不 同类 型 糖分 子 相 互 作 用 的 研究 。 人 类 呼吸 系统 细胞 中 有 alpha2-6 类 的 多 糖 受 体 ; 
禽类 呼吸 系统 细胞 中 则 是 alpha2-3 类 多 糖 受 体 。 人 类 呼吸 系统 细胞 中 的 alpha2-6 类 多 糖 受 
体 有 两 种 形状 ,分 别 为 伞 形 和 圆锥 形 。 病 毒 可 与 圆锥 形 alpha2-6 受 体 结 合 , 但 人 类 呼吸 道中 
这 种 受 体 远 远 小 于 伞 形 受 体 , 所 以 感染 能 力 差 。 因 此 ,流感 病毒 如 果 要 感染 人 类 ,必须 与 企 
形 的 alpha2-6 受 体 结合 。 可 以 寻找 那些 已 经 进化 出 与 伴 形 alpha2-6 受 体 结 合 的 病毒 ,并 针对 
其 开发 新 疫苗 ,以 便 应 对 可 能 又 发 的 大 规模 流感 。 随 着 和 焦 白 质 精细 结构 的 逐步 解析 ,从 和 蛋白 
质 结构 互 作 的 角度 来 研究 和 探索 复杂 疾病 的 潜在 发 生机 制 , 进 而 进行 药物 研发 具有 重要 的 
EX. 
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Section 6 Application of Disease 


一 、 蛋 白质 结构 信息 在 类 风湿 性 关节 炎 致 病 基 因 挖掘 中 的 应 用 >> 


类 风湿 性 关节 炎 是 一 种 复杂 的 炎症 性 疾病 ,主要 与 关节 、 目 身 免 疫 功 能 以 及 遗传 因素 有 
天。 治疗 类 风湿 性 关节 炎 的 重要 挑战 是 找到 一 种 有 效 的 中 选 方法 ,寻找 到 与 已 知 疾 病 基 因 
有 相似 结构 和 功能 的 候选 风险 基因 ,并 利用 它们 开发 新 扩 术 用 于 检测 AA. EA Ie 
是 生物 体重 要 的 组 成 部 分 ,并 参与 几乎 每 一 细胞 过 程 。 大 部 分 集 日 质 折 从 成 独特 的 结构 ,以 
便 在 不 同 功能 集中 的 具体 特性 做 出 特定 的 贡献 。 致 病 重 白质 与 致 病 基 因 往 往 是 通过 相似 的 
序列 和 结构 相关 联 的 ,所 以 候选 基因 可 以 通过 序列 及 与 已 知 致 病 基 因 相 似 的 晶体 结构 六 选 
出 来 。 本 案例 通过 采用 统计 遗传 学 贝 叶 斯 关联 分 析 方 法 和 模式 识别 的 方法 ,针对 已 知 致 病 
基因 与 非 致 病 基因 编码 集 日 质 在 序列 和 结构 特征 上 的 差异 ,来 预测 类 风湿 性 天 市 炎 的 致 病 
基因 。 并 从 家 族 功 能 特性 、GO 功 能 一 致 性 和 KEGG 通 路 富 集 三 方面 对 预测 的 致 病 基因 进行 
评价 ,以 期 找 出 与 类 风湿 性 关 方 炎 疾 病 发 病 机 制 密切 天 联 的 疾病 基因 .。 

从 在 线 GAW16( http: //www.gaworkshop.org/ ) 中 下 载 ,868 个 类 风湿 性 关节 炎 样 本 和 1194 
个 正常 样本 的 SNP 基 因 型 频率 数据 。 

人 类 基因 的 序列 信息 ,位 点 信息 来 自 NCBI( http: //www.ncbi.nlm.nih.gov/ ) 的 基因 组 数据 库 。 

疾病 基因 和 疾病 位 点 信息 来 日 OMIM( http: //www.ncbi.nlm.nih.gov/omim ) 数据 库 。 

人 类 重 日 质 的 结构 数据 来 日 PDB( http: //www.resb.org/pdb/home/home.do ) 数据 库 及 
targetDB 数据 库 ( http: //targetdb.pdb.org/ ). 

功能 注释 和 功能 鉴定 分 析 资 源 主要 采用 PIRSF( http: //pir.georgetown.edu/pirsf ) 中 的 功能 
分 类 、GO( http: //www.geneontology.org/ ) 注释 体系 和 KEGG 数 据 库 ( http: //www.genome.jp/kegg/ ). 

2. 实验 方法 

( 1) 支持 问 量 机 ( support vector machine, SVM ) 分 类 需 中 分 类 集合 的 构建 : 以 下 载 的 
GAW16 中 检测 的 类 风湿 性 关 市 炎 的 SNP 群 体 数 据 作为 研究 对 象 2062 个 样本 中 含有 433 766 个 
SNP, 对 基因 组 层面 的 贝 叶 斯 关联 分 析 得 到 疾病 与 对 照样 本 差异 显著 的 SNP 集 ,针对 集合 中 
的 每 一 个 SNP ,根据 其 在 NCBI 数 据 库 中 对 应 染色 体 的 物理 位 置 ,寻找 在 其 上 下 洲 500kb 范 转 
内 的 基因 ,得 到 的 基因 集 定 义 为 候选 疾病 基因 集合 , 共 4402 个 基因 ,作为 SVM 分 类 需 的 检验 
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TE; 从 OMIM 疾 病 数 据 库 得 到 的 类 风湿 性 关节 炎 相 关 疾 病 基 因 集 , 共 335 个 基因 ,作为 SVM 分 
类 船 的 阳性 集 ( 致 病 基 因 集 六 假定 在 全 基因 组 中 ,除去 阳性 集 和 检验 集 的 集合 为 非 致 病 集 ， 
共 得 到 28874 个 基因 ,用 该 集合 作为 SVM 分 类 条 的 阴性 集 。 

(2 )SVM 分 类 各 特征 的 确定 : 提取 和 集 日 质 的 结构 特征 共 28 维 ( 见 表 4-12 ), 在 提取 特征 的 
前 20 维 为 重 日 质 一 级 结构 特征 ,21~28 维 为 集 日 质 二 级 结构 特征 。 用 一 级 二 级 结构 组 合 特征 
构建 SVM 分 类 器 。 


表 4-12 有 蛋白质 二 级 结构 的 二 级 特征 维 数 , 名 称 及 其 表达 的 意义 


特征 维 数 特征 名 称 特征 含义 

1-20 C Composition of the 20 amion acid residues 
21 a Cell length a in Angstroms 
22 b Cell length b in Angstroms 
PA C Cell length c in Angstroms 
24 alpha Cell angle alpha in degrees 
25 | beta Cell angle beta in degrees 
26 gamma Cell angle gamma in degrees 
27 helical Percent of helical in protein sequence 
28 Beta sheet Percent of beta sheet in protein sequence 


(3) 分 类 需 的 确立 : 在 PDB 数据 库 和 target DB. 数据 库 中 分 别针 对 候选 基因 集 . 非 致 病 基 
因 集 及 已 知 致 病 基 因 集 ,用 网 页 文本 挖掘 的 方法 , 响 选 保留 具有 28 维 特征 的 重 白 质 , 得 到 已 
知 致 病 集 574 个 蛋白 质 , 候 选集 2664 个 蛋白 质 , 非 致 病 集 2385 个 蛋白 质 。 

采用 训练 集 : CABAR HER ) 和 非 致 病 集 ( 阴 性 集 ), 用 5 倍 交 义 证 实 来 评 佑 由 一 级 
二 级 组 合 特征 构建 的 SVM 分 类 器 。 通 过 对 1000 次 分 类 结果 的 统计 ,发 现 应 用 组 合 特征 的 准 
确 率 为 89%。 最 终 选 择 此 组 合 特征 构建 的 SVM 分 类 需 , 作 为 对 检验 集 进 行 预测 的 分 类 需 。 

3. SVM 分 类 骨 和 站 选 结果 分 析 及 评价 

(1) 预 测 的 致 病 基 因 : 通过 应 用 生日 质 一 级 结构 和 二 级 结构 组 合 特征 分 类 融 对 检验 集 
的 2664 个 集 日 质 进 行 分 类 ,预测 得 到 候选 笃 病 集 白 奈 ID 944 个 ,对 应 的 候选 致 病 基 因 495 个 。 

分 别 对 候选 致 病 基 因 集 (495 个 基因 ) 和 已 知 致 病 基因 集 ( 335 个 基因 ) ET TER A HE 
家 族 分 类 分 析 、GO 功 能 节点 富 集 分 析 和 KEGG 风 险 通 路 分 析 。 选 取 与 类 风湿 性 关节 炎 已 知 
致 病 基因 共 至 至 少 有 一 个 功能 注释 的 候选 基因 作为 评价 后 的 预测 的 致 病 基 因 , 即 : 对 于 495 
个 候选 致 病 基 因 进 行 评价 ,进一步 确定 了 146 个 预测 的 致 病 基 因 。 

(2 ) 预 测 致 病 基 因 的 功能 分 析 : 在 PIR 数 据 库 中 痛 选 已 知 致 病 基 因 集 和 预测 致 病 基 因 集 
所 属 的 家 族 , 包 括 免疫 球 重 白 家 族 、Protein kinase domain 家 族 SH3 domain 家 族 以 及 Ligand- 
binding domain of nuclear hormone receptor Ac JA T- LJ S EEEKTE E421 2g (4C 图 4-32 ), 可 以 发 
现 14 个 已 知 致 病 基 因 与 10 个 预测 致 病 基 因 在 该 家 族 上 富 集 ,这 体现 了 预测 基因 与 已 知 基因 
在 该 家 族 功能 上 的 一 致 性 。 
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图 4-32 已 知 致 病 基因 和 预测 的 致 病 基因 在 Immunoglobulin 家 族 上 的 富 集 示意 图 
红色 市 点 代表 预测 的 致 病 基 因 , 蓝 色 节 点 代表 已 知 致 病 基因 


应 用 CeneWebgestalt( http: //genereg.ornl.gov/webgestalt/ ) 在 线 分 析 软 件 研 究 146 个 预测 致 
病 基 因 ,发 现 其 调集 在 信号 转 导 细胞 过 程 的 正 回调 节 、 免 疫 系统 和 免疫 反应 等 功能 上 ,与 已 
和 类 致 病 基 因 郧 集 的 CO 功能 点 一 致 。 预 测 致 病 基因 集 和 已 知 致 病 基 因 集 共享 相同 的 KEGG 
通路 ,如 : 重要 的 通路 包括 细胞 因子 与 细胞 因子 受 体 互 作 通路 、JAK - STAT 信 号 通路 ,细胞 
黏附 分 子 和 MAPK 信 号 通路 等 ,而 且 这 些 富 集 的 通路 还 相互 紧密 连接 .相互 作用 ,一 起 参与 
传递 疾病 风险 (图 4-33 )。 
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图 4-33 通路 互 作 与 基因 通路 关系 图 
A. 类 风湿 关节 炎 通 路 互 作 图 ,每 一 个 绿色 节点 为 一 个 通路 , 边 代表 互 作 ; B. 候选 基因 与 相应 通路 之 间 的 关 
系 , 橘 色 节 点 代表 通路 , 蓝 色 节点 代表 已 知 致 病 基 因 ,粉色 节点 代表 预测 致 病 基 因 


(3 ) 预测 致 病 基因 与 风湿 性 关节 炎 关 系 的 文献 证 实 : VA EDR AT A ZEA D] ,通过 文献 
证 实 , 发 现 免 疫 球 重 白 家 族 、Protein kinase domain 家 族 、SH3 domain 家 族 以 及 Ligand-binding 
domain of nuclear hormone receptor 家 族 的 基因 大 都 与 类 风湿 性 关 市 炎 的 发 生发 展 相 联系 。 最 
终 , 对 基因 评价 后 的 146 个 预测 的 致 病 基因 中 ,有 41 个 基因 得 到 了 很 好 的 文献 证 实 。 


二 、 蛋 白质 结构 转换 几率 与 疾病 的 发 生 》》 


在 生命 体 中 ,和 蛋白质 几乎 参与 所 有 的 生理 过 程 。 生 化 反应 要 求 相 关 各 功能 团 处 于 一 定 
的 距离 内 ,因此 蛋白质 通常 要 折 炙 成 特定 的 结构 才能 执行 其 功能 。 一 旦 重 日 质 结 构 由 正常 
状态 转变 为 错误 状态 就 可 能 导致 疾病 的 发 生 。 由 于 蛋白质 所 涉及 生理 过 程 的 广泛 性 , 销 误 
折 琶 就 成 为 了 引发 疾病 的 一 种 普遍 因素 。 与 重 白 质 折 倒 异常 有 关 的 疾病 ,其 触发 致 病 结构 
变化 的 第 一 步 , 通 常 是 在 稳定 的 天 然 结 构 的 重要 区 域 发 生 错 误 折 全。 这 破坏 了 和 集 日 质 的 正 
常 构象 ,显露 出 了 先前 被 隐藏 的 聚集 易 发 区 ,从 而 在 错误 折 友 途径 中 导致 了 后 续 错 误 。 第 一 
阶段 的 位 置 可 被 认为 是 蛋白 质 的 开关 区 ,这 些 位 置 能 作为 药物 靶 点 有 助 于 阻碍 异常 折 芋 通 
路 .并 防止 构象 疾病 的 发 生 。 

在 正常 的 蛋白 结构 中 ,通常 将 构成 蛋白质 的 短 肽 归纳 为 两 大 类 别 。 一 类 以 螺旋 为 标志 
性 结构 , 另 一 类 以 B 折 丢 为 标志 性 结构 ,而 某 一 短 肽 只 属于 两 大 类 中 的 一 种 。 为 理解 触发 
蛋白 质 构象 疾病 的 相关 机 制 , 利 用 聚 类 分 析 方 法 ,综合 考虑 影响 蛋白 质 进 化 的 突变 .结构 、 
力学 属性 等 诸多 因素 ,以 一 类 短 肽 转换 为 另 一 类 短 肽 的 概率 来 判别 该 短 肽 触发 致 病 性 编 
构 改 变 的 能 力 。 这 种 预测 负责 致 病 性 结构 变化 起 始 交 换 区 的 算法 称 为 构象 疾病 开关 (CD_ 
SWITCH ) 算法。 

1. CD SWITCH 算法 的 实现 

第 一 步 : 将 一 个 查询 的 蛋白 质 视 为 连续 的 残 基 片 段 ,以 15- 残 基 为 一 个 片段 , 沿 着 重 日 
质 序列 滑动 一 个 15- 残 基 窗 口 ,查询 蛋白 质 的 每 一 个 片段 作为 一 个 查询 多 肽 。 从 同 源 多 肽 天 
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系 图 ( GPR ) 中 确定 查询 多 肽 的 远程 同系 物 ( RHs )。 
构建 查询 多 肽 的 数据 库 工 ,数据 库 中 的 每 一 个 节点 设 有 一 个 条 目标 题 和 一 个 条 目 “ 索 
引 ”( Index )。 对 于 每 一 个 查询 多 肽 i, 会 产生 一 套 RHs Tr Te 小: 


RH,, 
Index , I '5 IndeX;omologuel , IndeXpomologue2 , IndeXpomologue3 g sem 








Index Lo ; Index, apaets Indewy wanes MAX ei seas --- 

Index, D^ Index; mologuet » Index, ugue, Indexi a = 

第 二 步 : 评估 螺旋 圈 区 和 折 符 区 之 间 交 换 的 概率 

对 于 每 个 查询 多 肽 ,用 第 一 步 得 到 的 条 目 信 息 来 评估 查询 多 肽 结构 的 改变 的 倾向 。 对 
于 多 肽 的 每 一 个 15- 残 基 ,分别 考虑 前 7- 残 基 和 后 7- 残 基 , 只 要 7 个 残 基 中 超过 三 个 残 基 分 布 
,在 螺旋 构象 中 , 则 记 为 状态 H; 同 理 ,只 要 7 个 残 基 中 超过 三 个 残 基 分 布 在 折 生 构象 中 , 则 记 
为 状态 E; 否则 记 为 状态 C。 随 后 ,对 于 15- 残 基 多 肽 定义 了 9 个 状态 : HH, HC, CH, EE, CE, 
EC、HE、EH、CC。 在 图 4-34 中 , HH+HC+CH 的 节点 对 应 螺旋 区 相应 的 主体 , EE+EC+CE 的 节 
点 大 部 分 在 折 友 区 。 因 此 ,从 多 肽 的 二 级 结构 中 可 以 推断 出 在 多 肽 空间 中 一 个 片段 的 位 置 。 









Fingerprint in the 
universe of 
non-membrane 
polypeptide 
impressed by 
selection pressure 
of evolution 


图 4-34 同 源 拓 扑 特征 示意 图 
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对 于 查询 多 肽 i, 通 过 “索引 ”来 评估 它 属于 由 点 组 成 的 螺旋 圈 区 或 折合 区 的 概率 , 设 
这 个 “索引 ”所 组 成 的 集合 为 {Wi}。 用 相关 多 上 肽 的 信息 ,评估 查询 多 肽 在 区 域 o 中 的 概率 : 
P(a)=> 8(o.c'(w;))/n ,其 中 n 代 表 {Wi 的 规模 , w 代 表 含 有 索引 j 的 集合 {Wi 中 的 一 
Bi, 如果 w, 属 于 HH+HC+CH, 则 o’(w ) =0 ,如 果 w, 属 于 EE+EC+CE, 则 og’(w,)=1; ôy) 


是 阶 跃 消 数 , 当 x=y, 则 6(x,y )=1, 否 则 6(xy ) Z0 ; o=0 对 应 螺旋 圈 区 , o=1 对 应 折 伙 区。 每 一 
个 查询 多 肽 可 能 位 于 螺旋 圈 区 ,或 者 折 秋 区 ,或 者 其 他 区 。 因 为 GRP 中 的 大 部 分 市 点 位 于 蝶 
旋 区 ,所 以 研究 两 个 区 之 间 的 交换 概率 具有 足够 的 代表 性 和 准确 性 。 通 过 结构 提供 的 信息 ， 
对 于 查询 多 肽 i, 螺旋 圈 区 和 折 秋 区 之 间 的 交换 概率 用 Q; 来 评估 : 

( 1 ) 当 查 询 多 肽 ji 由 HH+HC+CH 跳 到 折 丢 区 时 : 

Q, 2C 1-P._,(0))P,( 1) C I-P,,CO)), 

( 2) 当 查 询 多 肽 ij 由 EE+EC+CE 跳 到 螺旋 圈 区 时 ; 

Q, 2C 1-P,_,(1))P,(0) (1-P,,,(1 )), 

( 3) 当 查 询 多 肽 属于 其 他 区 时 : 

Q; =0 

第 三 步 : EEK ALE P feVEMJAR Ee a a 

H T 3835 3/] , TE lA TARE FT AA IE 38 B) 0 182 EJ Pe PT T 8 
FAT FEE ae eR EB. BRE PST BIR , HP Ae VIT 2S ATE TE HS 2 
件 下 是 可 互 换 的 ,而 像 这 种 天 然 的 二 级 结构 的 轻微 扩张 或 收缩 是 不 会 引起 疾病 的 。 在 一 个 
查询 多 肽 两 侧 同 时 扩展 x 个 残 基 ,考查 在 螺旋 或 折 知 中 是 否 存 在 一 个 放大 的 窗口 。 如 果 扩 展 
后 与 扩展 前 的 查询 结果 一 致 的 多 肽 被 过 滤 ,其 相应 的 Qi 被 设置 为 0。 与 构象 疾病 相关 的 查询 
重 日 质 , 在 对 应 的 结构 变化 中 ,含有 高 Qi 值 的 多 肽 ,被 预测 为 开关 位 置 。 

2. 方法 的 评估 与 应 用 

用 序列 同 源 性 低 的 重 白 证 实 了 该 方法 的 普 适 性 ,由 于 这 个 算法 是 基于 远程 同 源 性 ,对 于 
相应 蛋白质 家 族 的 所 有 成 员 的 区 域 的 确定 是 相同 的 ,因此 ,对 于 输入 重 日 质 的 结构 没有 严格 
的 限制 。 并 通过 对 几 十 种 涉 病 蛋 白质 的 检验 ,证 明 此 方法 对 位 于 体液 环境 中 的 和 蛋白质 或 结 
构 域 均 有 效 ,适用 于 由 重 日 质 结构 变化 引起 的 各 种 疾病 。 

以 人 类 肝病 毒 重 白质 ( PrP ) 为 例 ,首先 ,用 人 类 PrP 的 每 15- 残 基 多 肽 来 评估 它们 的 交 
换 概率 。 在 这 个 分 析 中 ,每 个 残 基 用 15 个 连续 残 基 来 表征 ,为 了 评估 每 个 残 基 位 置 的 显著 
性 ,用 相应 15 个 残 基 的 最 大 概率 对 每 个 残 基 进行 打分 。 图 4-35A 中 显示 的 峰值 代表 发 生 在 
位 置 195 残 基 处 的 交换 概率 。 对 于 每 个 残 基 的 交换 概率 见 图 4-35B ,图 中 显示 五 个 可 能 的 开 
关 位 置 中 有 四 个 是 位 于 188~202 区 域内 (红色 区 域 )。 观 察 图 4-35A 和 图 4-35B 可 推测 出 位 置 
188~202 应 该 负责 构象 变化 的 起 源 。 

肝病 毒 恒 白质 和 抗 肝病 毒 的 化 合 物 的 结构 图 (图 4-36 ) 中 显示 了 已 知 在 及 病毒 中 阻碍 
致 病 性 变化 的 重要 结合 位 点 。2007 年 , Kuwata 等 报道 将 一 个 抗 及 病毒 的 化 合 物 GN8 结 合 到 
N159-V189-T192-K194-E196 相 应 区 域 能 抑制 肝病 毒 致 病 性 。 用 CD_SWITCH 算 法 通过 触发 
构象 转换 几率 的 显著 性 分 析 , 预 测 的 构象 转换 区 域 与 GN8 绪 合 口袋 的 主体 完全 对 应 。 所 以 
对 于 肝病 毒 重 白质 ( PrP ), 这 一 区 域 可 作为 此 蛋白质 相 关 结 构 病变 的 触发 开关 位 置 ,因此 验 
证 了 该 算法 预测 结果 的 准确 性 。 
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图 4-35 人 类 肝病 毒 的 结果 (PDB IDlqm2 A,1044* X KR) FEB 
A. 每 个 15- 残 基 片段 索引 的 交换 概率 ; B .每 个 残 基 位 置 的 交换 概率 ; C 在 进化 信息 缺乏 的 情况 下 ,对 于 巴 
测 肝 病毒 稳定 性 的 显著 性 位 置 





图 4-36 肝病 毒 直 白质 和 抗 及 病毒 的 化 合 物 的 部 分 结构 示意 图 
A. 肝 病毒 的 结构 ( 蓝 色 159, 紫 红色 189, 黄 色 192, 橄 槛 色 194, 绿 色 196 ); B. 抗 肝病 毒化 合 物 GN8 的 结合 口袋 
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CD_SWITCH 算 法 对 病变 敏感 区 域 的 预测 精度 可 达 94% ,病变 能 力 越 低 的 蛋白 发 病 后 越 


致 合 。 换 名 话说, 蛋 日 质 中 的 病变 敏感 区 域 可 由 理论 迅速 标定 ,大 量 用 于 测定 此 种 区 域 的 实 
验资 源 有 望 得 以 节省 。 研 究 表明 对 病态 结构 改变 的 研究 并 不 拘泥 于 四 十 几 种 经 典 的 蛋白 质 
构象 病 , 很 多 其 他 病理 现象 都 可 以 据 此 进行 分 析 , 如 高 臻 病 性 H5N1 型 禽 流 感 的 高 毒 机 制 和 
2009 甲 型 HIN1 流 感 的 种 属 跨越 机 制 等 。 通 过 对 错误 折 生 机制 的 研究 ,可 以 明确 病理 机 制 ， 
使 临床 方案 更 具 效 率 和 精确 性 ,对 遗传 学 和 医学 研究 具有 一 定 意义 ,而 从 病态 结构 改变 的 角 
度 进行 病理 机 制 的 研究 具有 一 定 发 展 前 景 。 
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分 于 进化 分 析 


MOLECULAR EVOLUTION ANALYSIS 


进化 是 一 种 不 断 改 进 的 过 程 杀 物种 起 源 少 中 这 样 描述 : "每 个 生物 每 时 每 刻 都 在 为 
生存 进行 反复 的 斗争 ,如 果 在 复杂 甚至 多 变 的 生存 条 件 下 该 生物 仍然 能 够 不 断 改进 自 
己 , 那 么 其 将 有 较 大 的 生存 可 能 性 并 被 自然 选择 所 保留 。 根据 严格 的 遗传 法 则 ,任何 
被 自然 选择 保留 下 来 的 物种 都 倾向 于 繁殖 其 已 经 被 改进 的 新 的 生命 形式 ”尽管 自然 
选择 在 形态 形成 和 行为 进化 方面 似乎 普遍 存在 ,但 在 菜 些 基因 和 基因 组 进化 中 所 起 的 
作用 也 有 其 他 看 法 。 分 子 进化 的 中 性 学 说 认为 ,种 内 和 种 间 大 多 数 可 见 差异 不 是 自然 
选择 ,而 是 适合 度 很 小 的 随机 突变 的 固定 所 决定 的 

人 类 基因 组 和 多 种 生物 基因 组 测序 计划 的 完成 ,推动 了 分 子 进化 的 跨越 式 发 展 ， 
基因 表达 和 生物 网 络 的 进化 等 研究 内 容 不 断 出 现在 最 新 的 研究 中 ,扩展 了 分 子 进化 分 
析 的 研究 范畴 。 许 多 研究 者 认为 基因 表达 调控 的 差异 可 能 对 物种 内 和 物种 间 的 表 型 
差异 有 重要 的 作用 ; 基因 的 进化 可 能 不 是 独立 进行 的 ,而 是 受到 蛋白 质 互 作 或 通路 的 
限制 ,是 一 个 协同 进行 的 过 程 ,这 些 研究 拓展 了 分 子 进化 的 深层 分 子 , 此 外 多 个 基因 共 
同 进化 或 者 以 模块 的 形式 研究 进化 关系 ,以 及 从 整个 网 络 的 层面 实现 进化 的 研究 。 在 
本 章 下 面 的 内 容 中 ,将 对 分 子 进 化 的 基本 知识 和 研究 进程 进行 介绍 。 











sB— = 
系统 发 生 分 析 与 重建 
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一 、 核 苷 酸 置换 模型 与 氨基 酸 置换 模型 》》 


(一 ) DNA 序 列 进化 分 析 


由 于 DNA 序 列 包括 多 种 不 同类 型 的 区 域 ,如 和 蛋白 质 编 码 区 、 非 编码 区 、 外 显 子 、 内 含 子 、 
MEK .重复 DNA 序 列 和 插 人 序列 等 。 因 此 DNA 序 列 的 进化 演变 比 蛋白 质 序列 的 演变 更 复 
来 。 因 此 , 弄 清 所 人 研究 的 DNA 类 型 和 功能 是 十 分 重要 的 。 即 便 我 们 单独 考虑 蛋白 质 编码 区 ， 
密码 子 第 一 二 三 位 的 核 苷 酸 替 代 样 式 也 不 尽 相 同 。 而 且 , 某 些 区 域 比 其 他 区 域 更 易 受 到 
目 然 选择 的 影响 ,因此 DNA 不 同 区 段 呈 现 不 同 的 进化 模式 。 这 里 主要 研究 蛋白 质 编 码 区 和 
RNA 编 码 区 ,这些 区 域 的 进化 相对 简单 ,但 通过 它们 来 理解 进化 的 一 般 规 律 极 为 重要 。 

I. 两 个 序列 间 的 核 苷 酸 差异 ”同一 祖先 序列 传 衍 的 两 条 后 裔 序列 ,它们 的 核 苷 酸 差异 
随时 间 增 长 而 增加 。 一 个 人 条 便 的 描述 序列 分 长 大 小 的 测度 是 两 条 后 裔 序列 中 不 同 核 苷 酸 位 
点 的 比例 ; 

p -n,ín (5-1) 

XE, ns 和 7 分 别 为 所 检测 的 两 序列 间 不 同 核 苷 酸 数 和 配对 总 数 。 在 以 下 的 内 容 中 ,我 
们 将 此 佑 计 称 为 核 苷 酸 间 的 pz 距离 。 

2. 核 甘酸 蔡 代 数 的 估计 如 同 氨基 酸 替代 , 当 序 列 间 亲缘 关系 较 近 时 , p 距 离 可 用 来 估 
计 每 个 位 点 上 的 核 苷 酸 蔡 代数 。 然 而 , 当 p 较 大 时 ,因为 没有 考虑 回复 突变 和 平行 突变 ,替代 
数 将 被 低估 。 由 于 核 苷 酸 在 序列 中 只 有 4 种 状态 ,这 个 问题 对 核 苷 酸 序列 比 对 氨基 酸 序 列 估 
计 更 为 严重 。 

估计 核 苷 酸 替 代数 ,一般 应 用 核 苷 酸 蔡 代 的 数学 模型 。 为 此 ,许多 学 者 提出 了 不 同 的 替 
代 模 型 ,其 中 一 些 模型 以 奉 代 率 和 矩阵 的 形式 列 在 表 5$-1 中 。 
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(A)Jukes-Cantor 模 型 =  (B)Kimura 模 型 | 
A T C G M A Ga G 

A = a a a A = B B a 
T a T a a T B - a a g 
C o a e a C B a T Q Bc 
G a a a a G a B = 





(1 )Jukes 和 Cantor 方 法 : AA e A A RARR H JukesfCantortt tt, AUR 
4E TE— 1. 53 A E RERA E A ERE E K , H AE EE BE DS 
AIFS AE PA, RE, — MERRE 2 3 ht E RRE — hE 
y = 3a, VIRF FREMA ERER, 

在 这 个 模型 中 ,我 们 假设 每 对 核 昔 酸 的 替代 率 相同 , 所 以 AT、C 和 G 的 期 望 频率 是 0.25。 
因此 ,应 用 公式 ( 5-1 ) 是 不 需要 假定 核 苷 酸 频率 不 随时 间 变 化 的 。 

( 2) Kimura 两 参数 法 : 在 实际 数据 中 ,转换 蔡 代 速率 常 高 于 颠 换 速 率 。Kimura 考 虑 到 这 
种 情况 ,提出 一 种 估计 每 个 位 点 核 苷 酸 替 代数 的 方法 。 该 模型 中 ,位 点 转换 替代 率 ( a ) 不 同 
THERE )。 

用 Kimura 模 型 ,每 个 核 苷 酸 的 平 衔 频 率 为 0.25。 因 此 ,无论 核 苷 酸 初始 频率 为 何 , 均 可 应 
用 。 这 一 点 和 Jukes-Cantor 模 型 类 似 , 使 得 这 两 个 模型 较 其 他 模型 应 用 范围 更 广 。 

【 例 5-1 】 人 与 猕猴 的 细胞 色素 b 基 因 间 的 核 苷 酸 奉 代数 估计 

动物 线粒体 DNA 中 的 细胞 色素 b 基 因 是 高 度 保守 的 ,因此 常 被 用 于 研究 亲缘 关系 较 远 的 
动物 的 进化 关系 。 表 5-2 列 出 了 人 与 狂 猴 的 细胞 色素 b 基 因 的 10 种 不 同类 型 核 苷 酸 对 的 数目 ， 
并 分 别 以 密码 子 第 1 2 和 3 位 点 列 出 。 


表 5-2 人 和 狂 猴 线粒体 细胞 色素 b 基 因 DNA 序 列 中 观察 到 的 10 种 核 蔡 酸 对 


转换 | Ede 相同 对 ”总 数 - 

AG CIA TR OG TI 00 AA GG PATI 

第 1 21 22 5 l 5 4 68 93 100 56 58 375 
第 2 20 3 6 1 0 2 140 87 7A 45 32 375 
第 3 60 16 6 5 49 2 11 122 102 2 138 375 
£50 101 41 17 7 54 8 219 302 273 103 228 1125 





表 5- 3 列 出 了 3 种 不 同 万 法 得 出 的 核 苷 酸 替 代数 估计 值 Z。 对 第 2 密码 子 来 说 ， 4 种 方法 
所 获得 的 4 种 d 值 十 分 接近 ， p 仅 略 低 于 相应 的 d 值 。 这 表明 当 p 不 大 时 ,不 论 运用 何 种 方 
法 ,同一 位 点 上 多 重 替代 的 校正 实际 上 并 不 影响 g 值 。 第 1 密码 子 上 由 4 种 方法 获得 的 4 个 估 


计 值 站 彼此 也 相似 ,虽然 它 的 绍 值 已 接近 第 2 密码 子 值 的 2 倍 。 然 而 ,在 第 3 密码 子 上 ,p 值 
已 充分 大 ,因此 多 重 替代 的 校正 变 得 不 重要 。 
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XX5-3 人 和 猕猴 的 线粒体 细胞 色素 b 基 因 中 第 一 、 第 二 和 第 三 密码 子 位 置 上 每 位 点 的 替代 数 估 计 值 











第 1 15.5+1.9 17.3+2.4 17.8 + 2.5 


第 2 8.5+1.4 9.1+1.6 9.2+1.7 
第 3 32.8 + 2.5 50.6 + 4.9 52.345.4 
(=) 氨基酸 序列 进化 分 析 


1. 氨基 酸 差异 和 不 同 氨 基 酸 的 比例 ”和 蛋白 质 或 肽 链 的 进化 演变 研究 开始 于 两 个 或 多 个 
氨基 酸 序列 的 比较 。 这 些 不 同 序 列 分 别 来 自 不 同 的 物种 。 图 5-1 显 示 了 人 和牛 小 鼠 、 大 鼠 和 
鸡 的 血红 蛋白 a 链 的 氨基 酸 序 列 。 图 中 ,不 同 的 氨基 酸 分 别 用 不 同 的 单字 母 代 表 。 


[A] MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKV 
[F] MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGAKV 
[小 鼠 ] MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHGKKV 
[XB] MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHIDVSPGSAQVKAHGKKV 
[$] MVLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHFDLSHGSAQIKGHGKKV 
[A] ADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASL 
[ 牛 ] AAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPAVHASL 
[小 鼠 ] ADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTPAVHASL 
[AR] ADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFTPAMHASL 
[ 鸡 ] vAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGOCFLVVVAIHHPAALTPEVHASL 
[A] KFLASVSTVLTSKYRD 
[^] KFLANVSTVLTSKYRD 
LARI KFLASVSTVLTSKYRD 
[AM] KFLASVSTVLTSKYRD 
US] KFLCAVGTVLTAKYRD 


图 5-1 AEA PIH tte EB 6 ok H ARK FF 


一 个 简单 的 测度 是 两 序列 间 的 氨基 酸 差异 数 (ny)。 如 果 所 有 序列 的 氨基 酸 数目 相同 
(n ), 上 述 差 异 数 就 可 用 来 比较 不 同 序列 对 间 的 分 歧 程 度 。 实 际 上 , 当 比 较 很 多 序列 时 ,氨基 
酸 序列 常 含有 插入 或 缺失 (图 $-1 ), 在 这 种 情况 下 ,计算 ny 时 一 定 要 删除 所 有 的 插入 /缺失 ( 间 
Bà). 否则 ,不 同 的 序列 对 间 相 比较 时 计算 出 来 的 ny 是 没有 意义 的 。 

实际 上 ,不同 蛋 白质 间 序 列 分 歧 更 方便 的 测度 是 两 个 序列 间 有 差异 的 氮 基 酸 所 鼎 的 比 
例 。 即 使 a 随 不 同 序列 而 变化 ,该 比例 值 (p ) 也 可 用 于 比较 分 此 程度 。 公 式 为 : 


p=n,/n (5-2) 


这 一 比例 值 也 可 称 为 p 距 离 。 假 如 所 有 氨基 酸 位 点 都 以 相等 概率 蔡 代 , 则 ny 遵循 二 项 
分 布 。 
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表 5-4 不 同 疹 椎 动物 血红 蛋白 a 链 中 不 同 氨 基 酸 的 数目 (上 对 角 线 ) 及 不 同 氨基 酸 的 比例 (下 对 角 线 ) 


ee "n AGE UU RN US SU eos 
X 16 20 25 42 
牛 0.113 19 32 41 

小 局 0.141 0.134 22 41 

BR 0.176 0.225 0.155 50 
鸡 0.296 0.289 0.289 0.352 


E: 计算 排除 了 缺失 和 插入 ,使 用 的 氨基 酸 总 数 为 1 42。 


在 图 5-1 所 给 出 的 例子 中 ,删除 所 有 间隔 后 可 比较 的 总 氨基 酸 位 点 数 为 140。 因 此 ,在 此 
例 中 n=140。n 值 出 现在 表 5-4 对 角 线 上 部 ,可 以 很 容易 地 计算 出 p , 列 于 对 角 线 下 部 。 当 所 


比较 的 物种 亲 绿 关系 很 远 时 (如 人 和 鸡 ), P 值 较 大 。 这 说 明 随 看 两 个 物种 的 分 卜 时 间 增 大 ， 
氨基 酸 的 蔡 代 数 也 增 大 ,但 p 并 不 严格 与 分 歧 时 间 (t) 成 比例 (图 5-2 )。 


0 
1 
0.8 
PC 距离 
3e 
ba 0.6 PER BS 
Ki 
ps 
= 0.4 
0.2 
0 
0 10 20 30 40 50 
单位 : 百 万 年 
图 5-2 p 距 离 和 泊 松 校正 (PC) 距离 随 分 歧 时 间 (t) 变化 的 关系 
2. 泊 松 校正 (Poisson correction, PC) 距离 。”p 与 的 变化 呈现 非 线 性 关系 ,原因 之 一 


是 当 多 个 氨基 酸 替代 出 现在 同一 位 点 时 , n, 偏 离 实际 氨基 酸 的 替代 数 将 会 逐渐 增加 。 运 
用 泊 松 分 布 能 够 更 精确 估计 替代 数 的 方法 之 一 是 运用 泊 松 分 布 的 概念 。 令 /为 一 个 特定 
位 点 每 年 的 氨基 酸 替 换 率 ( 简便 起 见 , 假 设 所 有 位 点 的 r 都 相同 ), 在 ! 年 后 ,每 个 位 点 氨基 
酸 替 代 的 平均 数 为 rt。 在 一 个 给 定位 点 氨基 酸 替 代数 上 k=1,2,3,… ) 的 发 生 频 率 遵 循 泪 
松 分 布 , 即 : 
P( k:t )=e"(rt ) /kl (5-3) 
因此 ,在 某 一 位 点 氨基 酸 不 变 的 概率 是 p( 0;t)=e“"。 如 果 多 肽 链 的 氨基 酸 为 na, 不 变 须 
基 酸 的 期 望 值 为 ne ”。 
实际 上 ,人 们 并 不 知道 祖先 物种 的 氨基 酸 序 列 。 因 而 ,只 能 对 已 有 t 年 分 化 的 两 个 同 源 
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序列 进化 比较 来 估计 氨基酸 的 替代 数 。 由 于 一 个 序列 的 氨基 酸 无 替代 概率 为 e”", 因 而 两 个 
序列 同 源 位 点 均 无 替代 的 概率 是 : 
q=( e” ) =e” (5-4) 
此 概率 可 用 1- p 来 估计 ,而 g=1-p。 公 式 中 g=e 是 近似 的 ,因为 回复 突变 和 平行 突变 
(在 两 个 不 同 进化 系 内 出 现 所 导致 的 同 源 氨基 酸 发 生 同一 种 突变 的 情况 ), 并 未 加 以 考虑 。 
当然 ,除非 p 相当 大 (如 > 0.3 ), 上 述 突 变 的 作用 一 般 可 以 忽略 。 
如 果 应 用 公式 ( 5-4 ), 则 两 个 序列 间 每 个 位 点 氨基 酸 替 代 总 数 ( d=2ri ) H: 
d--ln( 1-p ) (5-8) 
分 子 进 化 研究 中 ,常常 需要 知道 氨基 酸 的 替代 率 (+ )。 如 果 从 其 他 生物 学 信息 中 已 弄 清 
了 两 个 序列 间 的 分 化 时 间 t, 此 速率 的 估计 值 为 : 
r =d/(2t) 
注意 ,此 处 4 被 2 而 不 是 所 除 , 因 为 该 速率 指 一 个 进化 系 的 速率 。 
3. 自 展 法 的 方差 和 协 方差 ”可 以 有 若干 种 方法 来 估计 两 个 序列 间 氨 基 酸 替代 数 。 实 际 
上 ,每 个 模型 都 是 对 真实 情况 的 模拟 ,仅仅 提供 了 氨基 酸 的 近似 替代 数 。 因 此 ,前 述 的 估计 
距离 方差 的 分 析 公式 也 是 近似 的 。 用 最 小 二 乘法 估计 多 个 序列 构建 的 系统 树 的 分 支 长 度 时 ， 
也 需要 获得 不 同 序列 间 的 距离 方差 和 协 方差 的 估计 值 。 解 决 这 一 问题 的 一 个 简便 途径 是 应 
用 自 展 法 (bootstrap ) 计 算 多 种 距离 测度 的 方差 和 协 方差 。 自 展 法 不 要 求 关于 4 值 分 布 的 候 
设 , 只 要 求 每 一 个 位 点 是 独立 进化 。 
假定 有 3 个 是 有 进化 关系 的 且 均 含 n 个 氨基 酸 的 序列 


Nips X125 X135 X145 X15, -> Xin 
X41 s X55 , X53, X245, X55, +--+ s Xan 
X31 s X32 5 X33 9 X34 s X359 +. 9 X3, 


这 里 ,表示 第 i 个 序列 第 /个 位 点 上 的 氨基 酸 。 对 序列 1 、2, 序 列 1( 、 ) 与 3 以 及 序列 2、3 
分 别 计算 9 值 , 即 gi, gi MIn o HE 4; 代入 公式 , 便 获 得 序列 i 的 PC 距离 ( dy )。 

在 自 展 法 计算 方差 和 协 方差 时 ,具有 7 个 氨基 酸 的 3 个 序列 的 随机 样本 是 从 原始 数据 集 
中 产生 的 。 随 机 样本 以 伪 随 机 数 从 原始 的 数据 集中 按 列 有 放 回 随机 抽取 ,形成 目 展 重复 抽 
样 数据 集 。 一 旦 获得 了 随机 样本 , 便 能 对 3 对 序列 的 每 一 对 计算 出 距离 的 估计 值 。 如 此 重复 


Bi , 便 能 产生 B 个 距离 值 7。 以 4, 表示 第 b 次 自 展 重复 抽样 的 值 ,然后 可 用 式 ( 5-6 ) 计 算 


自 展 方差 : 
A l B ^ sa 2 ` 
yd , (5-6) 
AG E a) 
这 里 , 了 是 所 有 重复 抽样 ds 的 平均 值 。 一 般 来 说 ,计算 V,( 4 ) 可 做 约 1000 次 重复 抽样 
( B=1000 )。 


自 展 法 通常 基于 一 个 假设 , 即 所 有 位 点 都 是 独立 进化 。 在 位 点 总 数 低 时 ,这 一 假设 是 不 
成 立 。 但 如 果 位 点 总 数 很 大 (n> 100 ), 如 本 例 中 ,此 假设 可 以 成 立 , 因 为 以 不 同 速率 蔡 代 的 
大 多 数位 点 在 每 次 日 展 样本 上 都 会 出 现 。 
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自 展 法 的 一 个 优点 是 ,在 没有 数学 公式 可 用 时 ,也 能 算出 方差 和 协 方差 ,而 且 能 比 近 似 
的 数学 公式 提供 更 好 的 估计 。 它 能 方便 地 以 同样 的 标准 统计 公式 对 任何 距离 测度 计算 出 方 
差 和 协 方差 。 但 是 , 当 原 始 样本 太 小 且 存 在 偶 倚 时 ,这 种 偶 倚 不 能 被 目 展 法 消除 。 在 这 种 情 
况 下 ,解析 法 将 得 到 比 目 展 法 更 准确 的 方差 和 协 方差 。 

[ 例 5-2 ] 由 解析 法 和 目 展 法 获得 的 PC 距离 标准 误 


表 5-5 列 出 了 由 解析 式 和 自 展 法 算出 的 PC 距离 ( d ) 的 标准 误 , 自 展 法 重复 了 1000 次 。 
它们 均 基 于 图 $-1 的 血红 蛋白 x 链 数据 。 表 5-5 列 出 了 上 述 数据 集 的 & 值 。 显 然 ,由 上 述 两 种 
方法 所 获得 的 标准 误 基 本 是 一 致 的。 对 p 和 工 距离 ,用 上 述 两 种 方法 也 可 以 获得 几乎 相等 的 
标准 误 。 因 此 ,用 自 展 法 估计 进化 距离 的 标准 误 是 合适 的 。 

X5-5 解析 法 估算 的 PC 距离 的 标准 误 (下 对 角 阵 ) 
及 自 展 法 估算 的 PC 距离 的 标准 误 ( 上 对 角 阵 ) 


A 马 + 袋鼠 E] 鲤鱼 

人 0.031 0.031 0.039 0.078 0.083 

5 0.031 0.030 0.043 0.083 0.081 

牛 0.031 0.031 0.038 0.080 0.079 

袋鼠 0.040 0.043 0.039 0.081 0.084 

VEM 0.074 0.080 0.076 0.080 0.090 
鲤鱼 0.082 0.081 0.079 0.086 0.089 


4. TER ”以 上 所 介绍 的 进化 距离 都 有 一 个 假定 , 即 所 有 核 苷 酸 位 点 的 替代 速率 相同 。 
事实 上 ,速率 可 因 位 点 不 同 而 变化 。 在 重 日 质 编码 基因 中 ,密码 子 的 第 1 、 第 2 和 第 3 个 位 置 上 
的 替代 率 是 不 同 的 。 重 白质 活性 中 心 的 氨基 酸 功 能 制约 也 对 氨基 酸 位 点 间 的 速率 差异 有 重 
要 影响 。 在 RNA 编 码 基因 上 也 观察 到 速率 差异 现象 ,主要 是 由 于 RNA 功 能 限制 及 二 级 结构 
的 影响 。 不 同位 点 蔡 代 速率 的 统计 分 析 指 出 ,速率 变异 近似 地 遵循 分 布 。 

鉴于 上 述 原 因 ,许多 学 者 致力 于 发 展 适用 于 核 背 酸 蔡 代 的 [距离 。 一 般 而 言 , [距离 比 
非 工 距 离 更 符合 实际 ,但 前 者 比 后 者 方差 更 大 。 有 鉴于 此 ,除非 所 使 用 的 核 背 酸 数 目 非常 大 ， 
否则 了 距离 不 一 定 对 构建 系统 树 有 更 优 的 结果 。 


二 、 系 统 发 育 树 重建 方法 》》 


在 研究 从 病毒 到 人 类 的 各 种 生物 的 进化 历史 中 , DNA 或 蛋白 质 序 列 的 系统 发 育 分 析 已 
经 成 为 一 个 重要 的 工具 。 由 于 不 同 的 基因 或 DNA 片 段 的 进化 速率 存在 较 大 的 差异 ,我 们 可 
以 通过 这 些 基因 或 DNA 片 段 来 估计 几乎 所 有 水 平 上 的 有 机 体 间 的 进化 关系 。 系 统 发 育 分 析 
对 于 阐明 多 基因 家 族 的 进化 关系 ,以 及 理解 在 分 子 水 平 上 的 适应 性 进化 过 程 也 是 十 分 重 
要 的 。 


(一 ) 系统 发 育 树 的 种 类 
1. 有 根 树 和 无 根 树 ”基因 或 生物 体 的 系统 发 育 关系 常常 用 有 根 或 无 根 的 树 形 结构 来 表 
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示 , 即 有 根 树 和 无 根 树 。 树 的 分 文 样式 称 为 拓扑 结构 。 对 一 定 规模 的 分 类 群 ( 任 何 分 类 学 单位 : 
属 \ 种 群体 和 DNA 序 列 等 ), 可 能 的 有 根 树 和 无 根 树 的 拓扑 结构 数目 很 大 。 如 果 一 个 类 群 数 
为 m 的 有 根 二 又 树 ,其 可 能 的 拓扑 结构 数 为 : 

1+ 3+ Serres (2m-3 )=[ ( 2m-3 )! ]/L 2"?( m-2 )! ],( mz2) 

若 m=10, 则 有 34 459 425 有 根 二 又 树 。 无 根 树 可 能 的 拓扑 结构 的 计算 来 用 m-1 蔡 换 公 式 
中 的 m 即 可 , 即 m=10 时 ,结果 为 2 027 025 种 。 在 大 多 数 情 况 下 ,大 部 分 可 能 的 拓扑 结构 可 以 
通过 明显 不 可 能 的 进化 关系 或 其 他 信息 排除 。 

2. 基因 树 和 物种 树 ” 进 化 学 家 和 党 对 代表 一 个 物种 或 群体 进化 历史 的 系统 发 育 树 感 兴 
趣 ,这 种 树 称 为 物种 树 或 种 群 树 。 然 而 , 当 一 个 系统 发 育 树 由 来 自 各 个 物种 的 一 个 同 源 基 因 
构建 时 ,得 到 的 树 将 不 完全 等 同 于 物种 树 。 当 某 一 座位 出 现 等 位 基因 多 态 性 时 ,从 不 同 物种 
取样 的 基因 分 离 的 时 间 将 比 物种 分 歧 时 间 长 。 根 据 基因 构建 的 树 的 分 支 结 构 也 可 能 不 同 于 
物种 树 ,我 们 称 这 种 树 为 基因 树 。 同样 需要 注意 的 是 ,如 果 检 测 的 氨基 酸 或 核 苷 酸 数目 较 少 ， 
重建 的 基因 树 和 物种 树 的 分 支 式样 也 可 能 不 同 。 因 此 ,可 以 通过 检测 大 量 的 氨基 酸 或 核 背 
酸 来 避免 这 种 错误 。 

当 所 研究 的 基因 属于 一 个 多 基因 家 族 时 ,有 可 能 出 现 问题 。 因 为 构建 一 个 不 同 物种 的 
系统 发 育 树 ,我 们 应 当 使 用 直系 同 源 而 不 是 旁 系 同 源 , 因 为 只 有 直系 同 源 才 代 表 物 种 形成 事 
件 。 然 而 ,事实 上 ,要 区 分 直系 同 源 基 因 和 劳 系 同 源 基因 是 很 难 的 。 

3. 期 望 树 与 现实 树 ” 在 推断 系统 发 育 的 理论 中 ,常常 假设 所 研究 的 DNA 或 蛋白 质 序列 非 
第 长 (理论 上 无 限 长 ), 从 中 获得 的 大 量 核 苷 酸 或 氨基 酸 均 是 随机 取样 。 一 个 用 无 限 长 的 序列 或 
每 一 分 支 的 替代 数 的 期 望 值 构建 的 树 称 为 期 望 树 ,建立 在 实际 替代 数 基础 上 的 树 称 为 现实 树 ， 
由 所 观察 到 的 序列 数据 构建 的 树 称 为 重建 树 。 期 望 树 、 现 实 树 和 重建 树 通常 是 不 同 的 。 大 多 
数 构建 树 的 方法 的 目的 是 重建 现实 树 , 这 一 类 方法 包括 邻接 法 、 最 大 简约 法 和 最 大 似 然 法 等 。 

当选 择 构建 树 的 DNA 序 列 不 同 , 重 建树 的 拓扑 结构 和 分 支 长 度 也 将 不 同 ,因此 ,评价 物 
种 树 或 种 群 树 时 ,应 尽量 使 用 多 基因 。 

4. 拓扑 距离 ”两 个 不 同 的 树 之 间 的 拓扑 距离 通常 可 以 用 序列 分 割 的 方法 来 测量 。 对 于 
无 根 二 义 树 ,这 个 距离 是 有 差异 内 部 分 支 数 的 两 倍 。 如 果 两 个 8 序列 的 树 具有 相同 的 拓扑 结 
构 , 则 dT=0, 知 所 有 内 部 分 文 均 产生 不 同 的 分 割 , 则 dT=10。 然 而 ,如 果 比 较 的 两 个 树 具有 多 
靶 点 , 则 上 述 规则 不 起 作用 ,这 种 情况 下 ,我 们 可 以 使 用 Rzhetsky 和 Nei 的 普 过 性 公式 计算 : 

d,=2| min( qi,g; ) -p ]+|9-9)| (5-7) 

这 里 ,9 和 9 分 别 为 树 1 和 树 2 的 内 分 文 树 , p 是 使 两 树 产 生 相 同 序列 的 分 割 树 。 当 包含 

BESH, q Allg. AT EA In); 但 对 于 二 又 树 ,q 和 94 一般 是 相同 的 。 


(二 ) 基于 距离 法 构建 系统 发 生 树 


构建 系统 发 生 树 通常 使 用 的 方法 分 为 3 大 类 : OERA; @ 简 约法; OMAK. 

构建 树 的 方法 一 般 包 括 两 个 过 程 : 拓扑 结构 的 判断 和 一 个 既定 的 拓扑 结构 分 支 长 度 的 
估计 。 当 拓扑 结构 已 知 时 ,估计 分 文 长 度 可 以 用 多 种 统计 学 方法 ,如 最 小 二 乘法 和 最 大 似 然 
法 等 ,问题 在 于 如 何 判断 或 重建 一 个 拓扑 结构 。 

系统 发 育 重 建 的 方法 具有 很 大 的 争议 ,曾经 从 事 通过 形态 学 特征 来 研究 系统 发 育 的 研 
究 者 倾向 于 使 用 假设 条 件 较 少 的 简约 法 ; 从 事 分 子 生 物 学 工作 的 研究 独 倾 回 于 使 用 分 析 法 ; 
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数学 家 和 统计 学 家 试图 建立 各 种 复杂 的 数学 模型 ,而 较 少 地 考虑 实际 应 用 。 

距离 方法 : 距离 方法 涉及 两 个 步骤 : 计算 物种 对 之 间 的 遗传 距离 以 及 从 距离 矩阵 重建 
一 棵 系统 发 育 树 。 下 面 我 们 介绍 两 种 不 需要 分 子 钟 假设 的 方法 : 最 小 二 乘法 ( least-squares, 
LS ) 和 邻接 法 ( neighbor-joining, NJ ). 

(1 ) 最 小 二 乘法 (图 $-3 ): 最 小 二 乘法 将 成 对 距离 矩阵 作为 给 定数 据 , 通 过 匹配 那些 尽 
可 能 近 的 距离 来 估计 一 棵 树 上 的 分 支 长 度 , 即 对 给 定 的 和 预测 的 距离 差 的 平方 和 最 小 化 。 
顶 测 距离 是 沿 连接 两 个 物种 的 通路 的 分 文 长 度 总 和 计算 的 。 距 离 差 的 平方 和 的 最 小 值 则 是 
树 与 数据 (距离 ) 相 似 测度 , 它 可 用 作 树 的 分 值 。 


1 人 3 大 猩猩 








2 黑猩猩 4 猩猩 
图 5-3 ”估计 枝 长 的 最 小 二 乘 标准 的 示意 图 


设 物种 评 册 之 间 的 距离 为 d;, 树 上 物种 表册 间 通 路 的 校长 和 为 4;。LS 方 法 对 所 有 独立 的 i 
和 j 对 求 距离 差 WPa, > d; | 的 最 小 值 , 使 得 这 棵 树 与 距离 之 间 的 拟 合 尽 可 能 地 近 。 例 
如 : 对 Brown 等 的 线粒体 数据 在 k80 模 型 下 计算 成 对 距离 ( 见 表 5-6 ) 作为 观测 数据 。 现 在 , 考 


虑 树 人 ,黑猩猩 ,大 猩猩 ,猩猩 及 它们 的 5 个 校长 hibs bs tye 
X5-6 线粒体 DNA 序 列 的 成 对 距离 


1. A 2. 黑猩猩 “3. 大 猩猩 4282 
LA 
2. RIENE 0.0965 
3. 大 猩猩 0.1140 0.1180 
4. 猩猩 0.1849 0.2009 0.1947 


在 这 柠 树 上 ,人 与 黑猩猩 之 间 的 预测 距离 是 hb+b, 人 与 大 猩猩 之 间 的 预测 距离 是 hb+tb+ta， 
依 此 类 推 。 则 距离 差 的 平方 和 为 : 


2 
s- Y(4, -d, | 


i<j 


^ < ^ z ^ I 
=[ da -da | (ad, (dazda) P 
A 2 A < A E 

e -dn | + dads + (dd | 
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X5-7 K80 模 型 ( Kimura,1980 ) 下 的 最 小 二 乘法 


树 to t 7o EMPIRE LI e S 
r((H,C),G.O) 0.008840 ^ 0.043266 0.05328 0.058908 —— 0.135795 0.000035 
r((H,C),C,0) 0.000000 ^ 0.046212 0.05623 0.061854 0.138742 0.000140 


r((H,C),CO0) 同上 
r((H,G),CO) 同上 


FERES-T SHES TAAL Bly. ti .bbb 的 函数 。 最 小 化 S$ 的 枝 长 值 为 LS 估计 : f =(.008840, 


f, -0. 043266, f 70.053280, f =0. 058908, f, =0.135795, 对 应 的 树 分 值 为 $=0.00003547。 对 其 
fa LARA, 可 以 进行 类 似 的 计算 。 的 确 , 其 他 几 棵 二 元 树 都 趋 回 于 星 状 树 , 内 分 文 长 估计 值 
为 0。 具 有 最 小 S 的 树 称 为 LS 树 , 它 是 真实 系统 发 育 关 系 的 LS 估计 。 

用 最 小 二 乘 标准 确定 的 树 采 用 同样 的 标准 佑 计 分 文 长 ,计算 一 个 散 点 图 中 与 ?=a+px 配 
合 的 直线 。 如 果 对 校长 没有 什么 约束 ,就 有 解析 解 ,可 以 通过 解 线性 方程 获得 。 非 约束 方法 
可 以 是 树 重建 的 一 种 良好 的 方法 ,但 是 对 枝 长 没有 明确 定义 。 一 些 模拟 研究 建议 约束 校长 
为 非 负 值 ,将 改善 树 重建 效果 ,大 多 数 计算 机 程序 在 现实 LS 方法 时 不 采用 约束 。 值 得 注意 的 
是 , 当 所 估计 出 的 校长 为 负 值 时 ,它们 多 数 时 候 其 实 是 接近 于 0。 

( 22 邻接 法 : 对 树 进行 比较 (特别 是 距离 法 中 ) 所 用 的 一 个 标准 是 以 树 的 校长 总 和 来 度 
量 进化 总 量 , 枝 长 总 和 最 小 的 树 称 为 最 小 进化 树 ( minimum evolution tree )。 

邻接 法 是 基于 最 小 进化 标准 的 一 种 聚 类 算法 。 由 于 它 计算 快 ,又 能 产生 合理 的 树 , 因 而 
得 以 广泛 应 用 。 它 从 一 个 星 状 树 开始 ,然后 加 入 两 个 节点 ,选择 能 达到 树 长 减少 最 大 的 一 对 。 
随后 ,产生 一 个 新 节点 来 替代 两 个 加 入 的 节点 将 和 矩阵 的 维 数 减少 了 一 次 。 重 复 这 一 过 程 ,下 
到 完全 解 出 这 棵 树 ,该 算法 的 每 一 步 都 要 更 新 树 的 校长 以 及 树 长 。 


(三 ) 基于 字母 特征 构建 进化 树 


最 大 简约 法 : 在 采用 等 位 频率 来 重建 人 类 种 群 间 的 关系 时 ,研究 者 建议 进化 树 的 合理 
估计 为 进化 总 数 的 最 小 值 , 这 种 方法 在 应 用 于 离散 数据 时 被 称 为 简约 法 ,而 最 小 进化 法 在 今 
天 被 看 做 是 对 重复 突变 进行 修正 后 校长 总 数 最 小 化 的 方法 。 

在 一 个 位 点 上 性 状 变化 的 最 小 数目 常常 被 称 作 性 状 长 度 ( character length ) 或 位 点 长 度 
(site length )。 对 序列 上 的 所 有 位 点 而 言 ,性 状 长 度 之 和 是 对 整个 序列 所 需要 变化 的 最 小 数 
H , 称 为 树 长 (tree length )、 树 分 值 ( tree score ) 或 简约 分 值 ( parsimony score )。 有 具有 最 小 树 分 
值 的 树 是 真实 树 的 估计 , 称 为 最 大 简约 树 。 多 棵 树 是 等 价 最 佳 树 的 情况 经 常见 到 ,尤其 是 序 
列 非常 相似 时 。 

假设 在 某 个 特定 位 点 ,4 个 物种 的 数据 是 AAGG, 且 考虑 图 5-4 给 出 的 两 棵 树 所 需 的 最 小 
变化 数目 。 我 们 通过 将 性 状 状态 标注 到 灭绝 的 祖先 状态 节点 来 计算 这 个 数目 。 见 图 $-4。 

对 第 一 棵 树 , 可 以 通过 标注 A 和 G 到 两 个 节点 来 做 到 这 一 点 ,内 校 只 需要 一 次 变化 
(A-G )。 对 第 二 棵 树 ,我 们 可 以 将 AA( 已 显示 ) 或 GCG( 未 显示 ) 标 注 到 两 个 内 节点 ,任何 一 种 
情况 下 ,最 少 都 需要 两 次 变化 。 注 意 , 某 位 点 上 被 标注 为 祖先 状态 的 一 组 性 状 状态 被 称 为 祖 
先 重 建 ( ancestral reconstruction )。 对 于 具有 (nn-2 ) 个 内 节点 的 zx 物 种 的 二 元 树 而 言 , 在 每 个 
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1(A) G) MA) 2( A) 


2( A) 4G)  3(G) 4(G) 
图 5-4 最 大 简约 法 建树 示意 图 


位 点 重建 的 总 数 为 4( n-2 ) (PEF AR ) 或 20( n-2 ) (氨基 酸 )。 达 到 变化 最 小 数目 的 重建 称 为 
最 简约 重建 ( most parsimonious reconstruction )。 因 此 ,对 第 一 棵 树 , 只 有 一 个 单一 的 最 人 简约 重 
建 , 而 对 第 二 棵 树 ,两 个 重建 是 等 价 最 简约 。 

一 些 位 点 对 树 的 判别 并 无 贡献 ,因而 是 没有 信息 的 。 例 如 一 个 恒定 位 点 , 即 所 有 物 
种 在 该 位 lit gai 对 任何 树 都 不 影响 。 SUR, -— se ome 
的 性 状 中 有 一 个 只 出 现 一 一 次 变化 ,因而 
也 不 是 信 息 位 点 。 ee ep ) ent rnp a 因为 
对 任意 树 只 要 对 所 有 祖先 节点 标注 A 都 需要 3 次 变化 。 对 一 个 简约 信息 位 点 ( parsimony- 
informative site ) Ift] zi ,至 少 要 有 两 个 状态 被 观测 到 ,每 一 个 至 少 两 次 。 注 意 , 信 息 位 点 和 非 
信息 位 点 的 概念 仅仅 只 用 于 简约 法 。 而 在 距离 法 或 似 然 法 中 ,所 有 位 点 (包括 不 变 位 点 ) 都 
影响 计算 ,应 当 被 包括 在 内 。 

我 们 篆 背 将 所 有 物种 在 某 个 位 点 上 观察 到 的 性 状 状态 看 做 是 位 点 构 型 (site 
configuration ) 或 位 点 模式 (site pattern )。 这 意味 着 对 4 个 物种 而 言 只 有 3 种 位 点 式样 是 有 信 
息 的 ,它们 是 xxyy, xyxy 和 xyyx, 这 里 x 和 y 是 任意 两 个 不 同 状态 。 很 明显 ,这 3 种 位 点 式样 分 别 
“支持 ”3 棵 树 ,分 别 是 Tl :((1,2),3,4); T2 :((1,3),2,4) 和 73 :((1,4),2,3 )。 设 具有 这 些 
位 点 式样 的 位 点 数 分 别 是 n1, n2 和 n3 ,如果 n1, n2 或 3 是 3 个 中 最 大 的 , 则 1, 2 和 7T3 是 最 简 
约 树 。 


(四 ) 用 于 系统 发 育 重建 的 距离 测度 


1. 当 每 个 位 点 的 核 背 酸 替 代数 目的 Jukes-Cantor 估 计 值 小 于 0.05 时 ,应 当 使 用 p 距 离 或 
Jukes-CantorlE BS , ,而 不 管 是 否 存在 转换 / 颠 换 ,不 管 奉 代 速 率 是 否 因 核 音 酸 位 点 而 异 。 

2. 40.05<d<1, 上 且 检 验 的 核 苷 酸 较 多 时 ,用 Juker-Cantor 距 离 ,除非 转换 / 颠 换 比较 局 
(R>5 )。 但 此 比率 较 高 且 检 测 的 核 苷 酸 数目 很 多 时 ,要 使 用 Kimura 距 离 。 

3. 对 于 很 多 序列 来 说 , 4>1 时 构建 的 系统 树 会 因为 某 些 原因 而 不 可 靠 ( 如 存在 对 位 排列 
错误 ), 因 此 ,建议 尽量 避免 使 用 这 些 数据 。 可 以 淘汰 进化 很 快 的 那 部 分 基因 区 域 ( 如 去 除 免 
疫 球 蛋白 的 超 变 区 基因 ), 仅 使 用 进化 速度 慢 的 区 域 。 

4. 当 上 距离 很 大 而 z 很 小 时 ,用 来 估计 每 个 核 苷 酸 位 点 将 代 数据 的 很 多 距 高 方法 不 能 使 
用 ,在 这 种 情况 下 ,p 距 离 可 以 获得 相对 可 靠 的 拓扑 结构 。 

5. 当 一 个 系统 树 是 通过 一 个 基因 的 编码 区 构建 时 , 同 义 与 非 同 义 蔡 换 之 间 的 差别 就 很 
重要 ,可 以 用 dS 来 构 树 。 

6. 普遍 地 ,如 果 两 种 距离 测度 对 于 同一 数据 获得 相同 的 距离 值 (或 极为 相近 ) 时 ,应 该 
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使 用 简单 的 测度 ,因为 它 的 方差 较 小 。 
三 分 子 钟 假说 >> 


(—) 概述 


分 子 钟 ( molecular clock ) 假说 认为 DNA 或 蛋白 质 序列 的 进化 速率 随时 间或 进化 谱系 保 
持 恒 定 。 在 20 世 纪 60 年 代 初 期 ,人 们 就 观察 到 不 同 物种 中 和 蛋白质 序 列 的 差异 ,如 血红 蛋白 a 
胞 色素 C 及 血 纤 肽 中 大 致 与 物种 分 歧 时 间 成 正比 。 通 过 这 些 观察 ,提出 了 分 子 进化 钟 的 概念 。 

站 和 完 需 要 溢 清 几 点 。 第 一 ,分 子 钟 应 当 被 看 做 是 氨基 酸 或 核 痛 酸 突变 的 随机 性 所 导致 
的 随机 钟 。 它 不 像 普 通 钟表 以 固定 时 间 间 隅 跳动 ,而 是 以 一 个 随机 间隔 跳动 。 第 二 ,不 同和 蛋 
日 质 间 或 集 日 质 的 不 同 区 域 间 进化 速率 的 差异 很 大 ,因而 分 子 钟 假说 允许 不 同 重 白质 间 进 
化 速率 不 同 ,或 者 说 每 个 蛋 蝗 质 有 其 自身 固有 的 分 子 钟 , 以 不 同 的 速率 跳动 。 第 三 ,速率 恒 
定性 未 必 对 所 有 物种 适用 ,很 有 可 能 只 存在 于 某 一 类 和 群 中 。 例 如 ,我 们 可 以 说 就 某 个 特定 基 
因而 言 ,分 子 钟 假说 在 灵 长 类 中 成 立 。 

在 分 子 进 化 的 中 性 学 说 ( neutral theory of molecular evolution ) 提 出 之 时 ,分子 进 化 的 “ 似 
钟 特 性 ”被 认为 “可 能 是 该 学 说 最 有 力 的 证 据 "。 中 性 学 说 强调 相对 适应 度 接近 于 零 的 中 性 
或 近 中 性 突变 的 随机 固定 。 分 子 进 化 的 速率 则 等 于 中 性 突变 率 , 而 与 环境 变化 或 种 群 大 小 
等 因 系 无 天。 如 果 突 变 率 相似 而 蛋白质 功能 在 同一 类 群 中 保持 不 变 , 以 至 于 中 性 突变 比例 
相同 ,那么 根据 中 性 学 说 的 预测 ,进化 速率 将 是 恒定 的 。 和 蛋白 质 间 的 速率 差异 则 被 解释 为 由 
于 不 同 重 日 质 具 有 不 同 的 功能 限制 ,因而 中 性 突变 的 比例 不 同 。 

近年 来 ,考古 学 数据 被 用 来 校 定 分 子 钟 ,即将 序列 间 的 距离 转换 成 绝对 地 质 时 间 和 置换 
率 。 病 毒 基 因 分 析 涉 及 类 似 的 情况 ,其 进化 非常 迅速 ,以 至 于 数 年 之 内 就 可 以 观测 到 变化 。 
人 们 可 以 用 病毒 被 隔离 的 时 间 来 校正 分 子 钟 ,并 使 用 与 这 里 讨论 基本 相同 的 方法 来 估计 分 
JHF TE] 


(—) 相对 速率 检验 


最 简单 的 分 子 钟 假设 检验 是 采用 第 三 个 物种 C( 外 类 群 ) 来 检验 两 个 物种 A 和 B 是 否 以 相 
同 的 速率 进化 。 这 一 检验 称 为 相对 速率 检验 ( relative—rate test ), 其 实 几 乎 所 有 的 分 子 钟 检 
验 比 较 的 都 是 相对 速率 而 不 是 绝对 速率 。 如 果 分 子 钟 假说 为 真 ,那么 从 祖先 节点 0 到 物种 A 
和 B 的 距离 应 当 相 等 JOA=dOB 和 a=b。 同 理 , 人 们 可 以 得 出 dAC=dBC。 


(三 ) 内 部 分 枝 检验 


1. 正 态 偏离 (2Z ) 检 验 ”如 前 所 述 ,推断 树 的 可 靠 性 是 通过 检验 其 每 个 内 部 分 校 的 可 靠 
性 来 完成 的 。 这 个 检验 (内 部 分 文 检验 ) 适 用 于 由 距离 法 构建 的 树 。 考 虑 5 序列 树 ,在 5 序列 
的 情况 下 ,有 15 种 可 能 的 无 根 二 分 疏 树 ,每 个 树 由 5 个 外 部 分 支 和 2 个 内 部 分 支 组 成 。 假 设 拓 
扑 结构 A 是 正确 的 ,而 其 他 的 都 是 不 正确 的 , 则 表明 正确 拓扑 结构 的 所 有 分 支 长 度 估计 的 期 
望 值 是 0 或 者 正 值 ,而 不 正确 拓扑 结构 中 至 少 有 一 个 内 部 分 支 长 度 为 负 值 , 且 该 分 支 产 生 了 
序列 间 的 一 个 不 正确 分 区 。 只 要 使 用 无 偏 距离 估计 而 分 支 长 度 用 LS 方法 估计 , 则 对 于 任何 
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数目 的 序列 构造 的 树 进行 检验 似乎 都 是 正确 的 。 因 此 ,如 果 一 个 树 的 某 个 内 部 分 支 估 计 值 
被 确定 为 负 值 ,该 树 的 拓扑 结构 很 可 能 就 是 错误 的 。 

上 述 的 零 假设 检验 能 相当 方便 地 应 用 于 由 距离 法 (特别 是 由 NJ 或 者 ME 方法 ) 获得 的 树 
的 分 析 上 ,因为 只 有 正确 树 的 所 有 内 部 分 支 才 可 能 是 正 值 的 。 但 在 MP 和 MIL 树 中 ,不 管 拓扑 
结构 如 何 ,所 有 内 部 分 支 都 为 正 值 ,因此 ,就 很 难 建立 出 一 种 检验 零 假设 的 分 析 方 法 。 然 而 ， 
使 用 自 展 法 可 以 检验 零 假 设 。 | 

2. 目 展 内 部 分 文 检 验 ” 另 一 种 用 于 距离 树 内 部 分 文 检 验 的 是 目 展 内 部 分 文 检 验 。 这 
种 方法 是 检验 一 个 给 定 树 的 每 个 内 部 分 支 的 可 靠 性 。 与 自 展 检验 法 相似 ,从 原始 序列 中 随 
机 抽样 形成 与 原始 数据 数目 相同 的 核 苷 酸 (或 者 氨基 酸 ), 再 用 从 原始 序列 数据 获得 的 树 拓 
扑 结构 来 计算 所 有 分 支 长 度 , 并 对 同一 种 拓扑 结构 重复 数 百 次 。 一 个 内 部 分 支 的 长 度 估计 b 
将 随 着 重复 次 数 变化 而 不 同 , 且 可 能 为 负 值 。 我 们 可 以 计算 b 的 平均 数 以 及 标准 误 ,并 进行 Z 

该 检验 结果 通常 与 上 述 分 析 方 法 获得 的 结果 非常 相似 。 但 是 该 方法 优 于 解析 法 , 即 无 
需 分 别 计算 每 个 替代 模型 b 的 标准 误 ; 所 有 替代 模型 的 标准 误 可 用 同样 的 方法 计算 。 因 此 计 
算 时 间 不 会 随 序列 数 增加 而 迅速 增加 。 这 个 方法 比 解析 法 更 易 运 用 。 然 而 , 当 核 甘酸 或 者 
氨基 酸 数目 小 时 ,该 方法 可 能 会 给 出 Pe 的 有 偏 估 计 , 这 是 因为 如 果 原 始 样 本 有 偏差 , 则 此 偏 
差 在 重复 抽样 时 不 能 被 除去 。 在 这 种 情况 下 ,解析 法 要 好 得 多 。 











第 二 三 
核 车 酸 和 重 白质 的 适应 性 进化 





Section 2 Adaptive Evolutions of Nucleotide and Protein 


基因 和 基因 组 的 适应 性 进化 最 终 决 定形 态 , 行 为 和 生理 上 的 适应 ,以 及 物种 分 收 和 进化 
创新 ( evolutionary innovation )。 因 此 ,在 分 子 进 化 研究 中 ,分子 适 应 是 一 个 令 人 振 理 的 诛 题 。 
尽管 自然 选择 在 形成 形态 和 行为 进化 方面 似乎 普遍 存在 ,但 它 在 基因 和 基因 组 进化 中 所 起 
的 作用 尚 存在 争议 。 分 子 进化 的 中 性 学 说 认为 ,种 内 和 种 间 大 多 数 可 见 差 异 不 是 由 目 然 选 
择 ,而 是 由 适合 度 很 小 的 随机 突变 的 固定 决定 的 。40 年 来 人 们 发 展 了 一 系列 中 性 检验 方法 ， 
本 节 介 绍 正 选择 和 负 选 择 的 基本 概念 以 及 分 子 进 化 的 主要 理论 ,还 将 简要 介绍 几 种 群体 遗 
传 学 中 发 展 起 来 的 常用 的 中 性 检验 方法 。 男 外 引入 应 用 范围 比较 广 的 dN/dS 检 验 ,并 且 详 细 
介绍 了 其 计算 方法 。 


一 、 中 性 与 近 中 性 理论 >> 


在 群体 遗传 学 中 ,一 个 新 突变 基因 a 与 野生 型 显 性 基因 A 的 相对 适合 度 由 选择 系数 s 来 度 
量 。 设 基因 型 AA, Aa 和 aa 的 相对 适合 度 分 别 为 1,1+s 和 1+2s, 则 s<0, =0 及 >0 分 别 对 应 负 选 择 
( negative selection ) 或 净化 选择 ( purify selection )、 中 性 进化 和 正 选 择 ( positive selection )。 新 
突变 基因 的 频率 各 世代 高 低 不 同 , 既 受 目 然 选 择 又 受 随 机 深 变 的 影响 。 究 竟 是 随机 深 变 还 
是 自然 选择 决定 了 突变 的 命运 取决 于 Ns(N 为 有 效 群体 的 大 小 )。 INS | >> 1 , 则 自然 选择 决 
定 基因 命运 ; 35] NS| 接近 于 0, 则 随机 漂 变 的 作用 非常 重要 ,而且 该 突变 为 中 性 或 近 中 性 。 

按照 中 性 理论 ,我 们 今天 观察 到 的 遗传 变异 一 一 无 论 是 种 内 多 态 性 还 是 种 间 分 收 , 均 
不 取决 于 自然 选择 所 驱动 的 有 利 突变 的 固定 ,而 是 取决 于 那些 事实 上 没有 适合 效应 ( 即 中 性 
的 ) 突变 的 随机 固定 。 下 面 是 该 理论 的 一 些 观 点 和 预测 。 

(1 ) 大 多 数 突 变 是 有 害 的 ,会 被 净化 选择 所 清除 。 

(2 ) 核 苷 酸 置换 率 等 于 中 性 突变 率 ( 即 总 突变 率 乘 以 中 性 突变 所 占 比 例 )。 如 果 物 种 间 
中 性 突变 率 恒定 (或 者 日 历时 间或 者 世代 时 间 ), 则 置换 率 也 是 恒定 的 。 这 个 预测 为 分 子 钟 
假说 提供 了 解释 。 

(3 ) 功能 较 重 要 的 基因 或 基因 区 域 进化 较 慢 。 在 具有 较 重 要 作用 或 处 于 较 强 功能 约束 
下 的 一 个 基因 中 ,中 性 突变 比例 较 小 ,使 得 核 背 酸 置换 率 较 低 。 现 在 ,功能 重要 性 和 置换 率 
之 间 的 负 相 关 在 分 子 进化 中 是 一 个 普遍 现象 。 例 如 ,替代 置换 率 几乎 总 是 比 沉默 置换 率 低 ; 
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密码 子 第 3 位 比 第 1 和 第 2 位 进化 更 快 ; 具有 相似 化 学 性 质 的 氨基 酸 比 不 相似 的 氨基 酸 更 容易 
相互 蔡 代 。 如 果 自 然 选择 在 分 子 水 平 上 驱动 进化 过 程 。 那 么 可 想 而 知 ,功能 重要 的 基因 的 
进化 速率 比 功能 不 重要 的 基因 要 高 。 

(4) 种 内 多 态 性 和 种 间 分 收 是 中 性 进化 同一 过 程 的 两 个 阶段 。 

( 5 ) 形 态 特 征 (包括 生理 ,行为 等 ) 的 进化 的 确 是 自然 选择 所 驱动 的 。 中 性 学 说 关注 的 
是 分 于 水 平 上 的 进化 。 

围绕 中 性 理论 的 争论 已 产生 很 多 的 群体 遗传 理论 和 分 析 工 具 。 下 面 将 讨论 其 中 几 种 。 


二 微观 适应 性 进化 的 检验 方法 》》》 


以 下 几 个 是 典型 的 统计 学 研究 适应 性 进化 的 方法 ,已 经 形成 了 稳定 的 软件 。 根 据 输入 
数据 的 不 同 可 以 检验 相应 基因 的 选择 强度 。 

1. Tajima 的 D 检 验 在 随机 交配 的 群体 中 ,一 个 中 性 基因 上 保持 的 遗传 变异 量 由 
0 =4NL 决 定 ,这 里 N 为 (有 效 ) 群 体 大 小 , hh 为 每 一 代 的 突变 率 。 从 每 个 位 点 的 角度 定义 
0 , 它 也 是 从 群体 中 随机 抽取 的 每 条 序列 的 期 望 位 点 杂 合 度 。 例 如 ,在 人 类 非 编 码 DNA 中 ， 
0 ~ 0.0005 ,意味 着 两 条 随机 的 人 类 序列 间 大 约 0.05% 的 位 点 不 同 。 和 群体 数据 一 般 很 少 有 变 
异 , 所 以 通常 采用 无 限 位 点 模型 ,假定 每 个 突变 都 发 生 在 DNA 序 列 的 不 同位 点 上 , 上 且 无 须 校 
正 多 重 命中 。 注 意 ,群体 规模 大 和 突变 率 高 都 会 导致 群体 中 保持 更 高 的 遗传 变异 。 

两 种 从 群体 中 随机 抽取 DNA 序 列 的 简单 方法 可 以 用 来 估计 9 。 第 一 种 是 包含 4 条 序列 
的 样本 中 的 多 态 性 位 点 数 $, 期 望 值 E(S)=L0a, ,这 里 的 I 为 序列 中 的 位 点 数 ,a; = Yi, 
SLO TT Ô, = S/(La) 估 计 。 第 二 种 方法 是 对 m 条 序列 所 有 成 对 比较 的 核 背 酸 差异 的 平均 比 
例 值 的 期 望 为 8 ,将 9 作为 一 个 估计 值 , 则 记 作 O, 。 这 两 种 的 估计 在 中 性 突变 模型 下 均 
无 偏 , 即 假定 无 选择 .无 重组 .无 群体 分 化 或 大 小 变化 ,以 及 突变 和 漂 变 之 间 平 衡 。 然 而 ,如 


果 模 型 的 假设 不 成 立 , 则 不 同 因素 对 9, 和 0 有 不 同 影 响 。 例 如 , 若 轻微 有 害 突变 在 群体 中 
保持 较 低频 率 能 显著 增加 S 和 6 值 ,但 对 6. 几乎 没有 影响 。 6 的 两 个 估计 量 可 以 为 了 解 千 
成 严格 中 性 模型 失效 的 因素 和 机 制 提供 信息 。 因 此 , Tajima 构 建 了 以 下 的 检验 统计 量 : 


人 ^ 


6 -6 
Hee (5-8) 
se(à,-à, | 


这 里 , SE 为 标准 误差 。 

在 无 效 中 性 模型 下 , D 的 均值 为 0, 方 差 为 1。Tajima 建 议 采 用 标准 正 态 分 布 和 B 分 布 来 
确定 D 是 否 显著 不 同 于 0。 

Tajima 的 D 检 验 的 统计 显著 性 可 能 与 几 种 不 同 的 解释 相 容 ,而 且 难 以 区 分 它们 。 正 如 前 
面 所 讨论 的 ,一 个 负 D 值 表明 存在 净化 选择 或 群体 中 分 离 的 轻微 有 害 突变 。 然 而 , 负 D 值 也 
可 能 是 由 群体 扩张 造成 的 。 在 一 个 扩张 群体 中 ,可 能 分 离 出 许多 新 的 突变 , 且 它 们 在 数据 中 
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以 单元 ( singletion ) 形 式 出 现 , 即 其 他 所 有 序列 在 此 位 点 上 都 相同 ,只 有 一 条 序列 不 同 。 单 元 
增加 了 分 离 位 点 的 个 数 并 导致 D 值 为 负 。 类 似 地 , D 值 为 正 可 解释 为 平衡 选择 将 突变 维持 在 
居中 频率 。 然 而 ,一 个 收缩 的 群体 也 能 够 导致 站 值 为 正 。 

2. Fu 和 Li 的 D 检 验 与 Fay 和 Wu 的 2 检验 ”在 n 条 序列 的 一 个 样本 中 ,一 个 多 态 位 点 上 突 
变 核 车 酸 的 频率 为 r=1,2,，…, n-1。 样 本 中 观察 到 的 突变 的 这 种 分 布 成 为 位 点 频谱 ( site- 
frequency spectrum ). ÁH ,采用 亲 绿 关系 很 近 的 外 类 群 来 推断 祖先 的 和 衍生 的 核 芽 酸 状 态 。 
例如 , 奢 在 一 个 n=5 的 样本 中 观察 到 的 核 车 酸 为 AACCC ,而 外 类 群 中 为 A( 假 定 的 祖先 状态 )， 
则 x=3。Fu 设 x 为 突变 规模 。 如 果 人 祖先 状态 未 知 , 则 不 可 能 区 分 突变 规模 是 x 还 是 n-r, 使 得 那 
些 突变 被 划 为 同一 类 ,位 点 频谱 则 被 认为 是 折 县 的 , 折 和 县 构象 提供 的 信息 远 少 于 非 折 重 构 
象 ,因而 ,采用 外 类 群 来 推断 祖先 状态 应 当 增 加 检验 效力 ,但 缺点 是 该 检验 可 能 会 受到 祖先 
重建 中 误差 的 影响 。 

Fu 和 Li 区 分 了 内 部 突变 和 外 部 突变 , 即 分 别 在 系谱 树 内 村 或 外 枝 上 发 生 的 突变 。 设 这 
两 类 突变 的 个 数 分 别 为 1 和 和 ,注意 1z 为 单 突变 的 个 数 ,他 们 构建 了 以 下 的 统计 量 : 


-=A -(a, -1)n 
SE (n, - (a, -1)n;) 


这 里 ,a, = $1 /i ，SE 为 标准 误差 。 与 Tajima D 检 验 相 类 似 ,该 统计 量 也 是 作为 中 性 模型 下 


0 的 两 个 估计 值 间 的 差异 来 构建 的 。Fu 和 Li 认为 群体 中 分 离 的 有 害 突变 倾 问 于 近期 产生 ， 
位 于 树 的 外 校 , 且 对 ns 起 作用 ; 而 内 校 上 的 突变 多 为 中 性 , 且 影 响 Wr 

3. McDonald-Kreitman 检 验 和 选择 强度 估计 中 性 学 说 认为 种 内 多 样 性 (多 态 性 ) 和 种 
间 分 卜 是 同一 进化 过 程 的 两 个 阶段 , 即 两 者 都 是 由 中 性 选择 突变 的 随机 漂 变 所 致 。 因 而 ,如 
果 同 义 和 非 同 义 突变 都 是 中 性 的 , 则 种 内 同 义 和 非 同 义 多 态 性 的 比例 应 与 种 间 同 义 和 非 同 
义 差 异 的 比例 相同 。 

近 绿 物种 重 日 质 编码 基因 中 的 可 变 位 点 可 依 位 点 是 否 具有 多 态 性 或 固定 差异 ,以 及 该 
差异 是 同 义 还 是 非 同 义 的 ,划分 为 一 个 2 x 2 列表 中 的 4 类 ( 表 5-8 )。 假 设 我 们 从 物种 1 中 抽取 
5 条 序列 ,从 物种 2 中 抽取 4 条 序列 , 厂 菜 位 点 在 物种 1 中 数据 为 AAAAA, 在 物种 2 中 为 GGGG， 
则 该 差异 被 称 为 固定 差异 。 若 某 位 点 在 物种 1 中 的 数据 AGAGA , 而 在 物种 2 中 为 AAAA , 则 
该 位 点 被 称 为 多 态 性 位 点 。 注 意 ,无 限 位 点 模型 无 需 对 隐藏 变化 进行 校正 。 如 果 数 目 不 
多 , 则 中 性 无 效 假设 等 价 于 列表 的 行 和 列 之 间 独 立 并 可 被 x 分 布 或 Fisher 精 确 检验 验证 。 
MeDonald 和 Kreitman 测 定 了 果 晶 3 个 亚 群 的 乙醇 脱氧 酶 基因 ( 44h ) 序 列 , 获 得 了 表 5-8 中 列 出 
的 数据 。P 值 小 于 0.006, 说 明 与 中 性 期 望 有 显著 偏差 。 种 间 替 代 突 变 远 多 于 种 内 替代 突变 。 
McDonald 和 Kreitman 将 此 模式 认 作 驱 动 种 间 差 异 的 正 选 择 证 据 。 


表 5-8 果 蝇 Adh 基 因 中 存在 沉默 突变 .置换 突变 以 及 多 态 性 位 点 个 数 ( 数 据 来 自 McDonald and Kreitman, 1991 ) 
置换 ( 非 同 义 ) J : 
沉默 ( 同 义 ) 17 


(5-9 ) 
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为 了 弄 清 这 个 解释 后 面 的 推论 ,假定 同 义 突变 是 中 性 的 ,考虑 选择 对 物种 分 歧 之 后 出 现 
的 非 同 义 突 变 的 影响 。 人 们 预期 有 利 蔡 代 突 变 会 很 快 固定 下 来 并 成 为 种 间 的 固定 差异 。 因 
而 ,者 固定 的 替代 突变 过 剩 (如 同 在 4dp 中 观察 到 的 ), 则 表明 存在 正 选 择 。 

人 们 在 哺乳 动物 线粒体 基因 中 已 观察 到 过 剩 的 奉 代 多 态 性 ,表明 净化 选择 下 存在 轻微 
有 害 替代 突变 。 有 害 突变 被 净化 选择 清除 ,而 且 不 会 在 种 间 比 较 中 看 见 , 但 在 种 内 还 是 会 
分 离 。 





三 .宏观 适应 性 进化 的 检验 方法 >) 


和 集 日 质 编 公 序列 区 分 为 同 义 置换 和 非 同 义 置 换 , 对 理解 自然 选择 的 作用 来 说 ,这 比 内 含 
子 或 非 编 码 序列 优越 得 多 。 若 将 同 义 置换 率 作为 基准 点 ,我 们 可 以 推断 自然 选择 在 非 同 义 
置换 固定 过 程 中 是 推动 还 是 阻碍 作用 。 非 同 义 / 同 义 置 换 率 的 比率 4(w@= d、 /4q,) 可 以 在 蛋白 
质 水 平 度量 选择 压力 。 如 果 选 择 对 适合 度 没 有 影响 , 则 非 同 义 突变 将 以 与 同 义 突变 相同 的 
速率 被 固定 ,使 得 JN=dS 及 w=1。 如 果 非 同 义 突 变 是 有 害 的 , 则 净化 选择 将 降低 其 固定 速率 ， 
使 得 dgN<dS 及 w<1。 如 果 非 同 义 突 变 受 到 达尔 文选 择 的 青睐 , 则 其 被 固定 的 速率 将 高 于 同 
义 突 变 , 致 使 dN>dS 及 w>1。 因 此 , 非 同 义 突 变 率 显著 高 于 同 义 突变 率 即 为 蛋白 质 适 应 性 进 
化 的 证 据 。 

然而 ,可 以 预料 一 个 功能 重 白 上 的 大 多 数位 点 在 大 部 分 进化 时 间 都 是 受 约束 的 。 即 使 
发 生 正 选 择 ,也 只 能 影响 几 个 位 点 , 且 只 有 偶尔 发 生 。 因 此 ,这 种 成 对 平均 方法 很 少 检测 到 
下 选择。 近期 研究 者 重 检测 影响 系统 发 育 关 系 中 特定 谱系 或 重 白 质 中 单个 位 点 的 正 选择 。 

对 编码 入 日 质 的 DNA 序 列 , 同 义 和 非 同 义 置 换 被 定义 为 平均 每 个 同 义 位 点 上 的 同 义 置 
换 数 ( ds 或 Ks ) 以 及 平均 每 个 非 同 义 位 点 上 的 非 同 义 置换 数 ( dv 或 KK )。 

本 节 主 要 使 用 记 数 法 计算 ,计数 方法 类 似 于 JC69 等 核 苷 酸 置换 模型 下 的 距离 计算 ,有 3 
个 步骤 : (D 对 同 义 和 非 同 义 位 点 计数 ; 对 同 义 和 非 同 义 差异 计数 ; (3) 计算 差异 比例 并 校正 
多 重 命中 ( multiple hit )。 将 位 点 和 差异 都 计数 后 ,就 可 以 区 分 同 义 和 非 同 义 这 两 种 类 型 间 的 
差异 了 。 

1. 位 点 计数 ”每 个 密码 子 都 有 3 个 核 苷 酸 位 点 ,分 成 同 义 和 非 同 义 两 类 。 以 密码 子 TTT 
( Phe ) 为 例 , 由 于 3 个 密码 子 位 置 上 每 个 核 苷 酸 都 可 以 转变 为 另外 3 种 核 苷 酸 , 该 密码 子 就 有 
9 个 直接 邻居 :TTC( Phe ),TTA( Leu ), TTG( Leu ), TCT( Ser ), FAT( Tyr ), TGT( Cys ), CTT( Leu ), 
ATT( Ile ) 和 GTT( Val ), FLA, ASF TT CAA SF TTT 3g 5 la] —7 a SER, A MT aH 
TTT 而 言 , 就 有 3 x 1/9=1/3 个 同 义 位 点 ,3 x 8/9=8/3 个 非 同 义 位 点 ( 表 5-9 )。 在 计数 过 程 中 ,不 
计 入 变 为 终止 密码 子 的 突变 。 我 们 将 该 方法 用 于 序列 1 中 的 所 有 密码 子 ,并 将 计数 结果 相 加 
以 获得 全 序列 中 同 义 和 非 同 义 位 点 的 总 数 。 然 后 ,对 序列 ?重复 该 过 程 并 计算 两 条 序列 间 的 
平均 位 点 数目 ,分别 计 为 S| 和 NN, 有 S+N=3 x Lao X HLL 为 序列 中 的 密码 子 的 数目 。 


表 5-9 密码 子 TTT( Phe ) 中 的 位 点 计数 


目标 密码 子 突变 类 型 置换 率 ( K =1 ) 置换 率 ( K =2 ) 
TTC( Phe ) 同 义 ] 2 
TTA( Leu ) 非 同 义 l l 
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续 表 
目标 密码 子 ” ”突变 类 型 置换 率 ( K =1 ) 置换 率 ( K=2 ) 
TTG( Leu ) 非 同 义 | ] 

TCT( Ser ) 非 同 义 | 2 
TAT( Tyr ) 非 同 义 | l 
TGT( Cys ) 非 同 义 l 1 
CTT( Leu ) 非 同 义 1 2 
ATT( Ile ) 非 同 义 ] l 
GTT( Val ) 非 同 义 1 | 
总 和 9 12 
同一 位 点 数 1/3 1/2 
非 同 义 位 点 数 8/3 5/2 


iE: KK 为 转换 / 颠 换 置换 率 比率 。 


2. 变异 计数 ”第 二 步 是 对 两 条 序列 间 的 同 义 和 非 同 义 变异 进行 计数 。 换 言 之 ,在 两 条 
序列 间 所 观测 的 差异 可 按 同 义 和 非 同 义 划 分 。 我 们 再 按 密 码 子 逐一 处 理 。 很 明显 ,如果 两 
个 所 比较 的 密码 子 相 同 (如 TTT 对 TTT ), 则 同 义 和 非 同 义 变异 数目 为 0 ; 如 果 两 个 所 比较 的 
密码 子 间 仅 在 一 个 位 置 上 存在 差异 (TTC 对 TTA ), 就 很 容易 发 现 这 种 单一 的 变异 是 同 义 的 还 
是 非 同 义 的 。 然 而 ,如 果 两 个 比较 的 密码 子 间 在 2~3 个 位 置 上 都 存在 差异 (如 CCT 对 CAG 或 
GTC 对 ACT ), 则 有 4~6 条 进化 途径 能 使 一 个 密码 子 变 成 男 一 个 密码 子 。 多 条 途径 中 可 能 涉 
及 同 义 和 非 同 义 差异 数 不 同 。 大 部 分 计数 方法 对 不 同 途径 赋予 同等 权重 。 

例如 ,密码 子 CCT 和 CAG 间 存在 两 条 途径 ( 见 表 5-10 )。 第 一 条 途径 要 通过 中 间 密 码 子 
CAT 转 换 , 涉 及 两 个 非 同 义 变 异 ; 而 第 二 条 途径 通过 中 间 密 码 子 CCG 转 换 , 涉 及 一 个 同 义 变 
异 和 一 个 非 同 义 变异 。 如 果 我 们 对 这 两 条 途径 赋予 相同 权重 , 则 两 个 密码 子 间 有 0.5 个 同 义 
变异 和 1.5 个 非 同 义 变 异 。 如 果 同 义 突变 率 高 于 非 同 义 突 变 率 ,如 同 几 乎 所 有 基因 中 表现 的 
一 样 ,第 二 条 途径 应 该 比 第 一 条 途径 的 可 能 性 更 大 ,预先 不 知道 4Was 比 率 和 序列 分 歧 度 ,就 
很 难 对 不 同 途径 赋 予 合适 的 权重 。 不 过 ,计算 机 模拟 结果 表明 加 权 对 估计 值 的 影响 很 小 , 尤 
其 是 当 序列 的 分 歧 度 并 不 是 很 大 时 。 


X5-10 ”密码 子 CCT 和 CAG 间 的 两 条 途径 


差异 
途 径 
同 义 非 同 义 
CCT( Pro ) — CAT( His ) — CAG( Gln ) 0 2 
CCT( Pro ) — CCG( Pro ) — CAG( Gln ) l l 
平均 0.5 15 


计数 沿 着 序列 密码 子 逐 一 进行 ,将 差异 数 相 加 得 到 两 条 序列 间 总 的 同 义 和 非 同 义 差 异 数 ,分 别 记 为 5， 
fu Na, 
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3. 多 重 命 中 校正 ”现在 ,我 们 有 : 
p,-S4S 
Py=NIN (5-10) 
分 别 是 同 义 和 非 同 义 位 点 上 的 差异 比例 ,它们 等 同 于 针对 核 苷 酸 的 JC69 模 型 下 的 差异 
比例 。 因 此 ,我 们 套用 JC69 中 对 多 重 命 中 的 校正 。 
3 4 
d, = -Aeg[i- 3p. 
(5—11) 


3 4 
d, =——log|1—— 
N 4 el T 


当 我 们 只 关注 同 义 位 点 和 差异 时 ,每 个 核 苷 酸 并 不 存在 3 个 其 他 核 背 酸 来 突变 的 情况 。 
实际 上 ,对 多 重 击 中 校正 的 作用 很 少 ,至少 在 序列 分 歧 度 不 高 时 如 此 , 故 校正 公式 带 来 的 偏 
差 也 就 不 是 非常 重要 了 。 

4. mbcL 基 因应 用 实例 ”我们 应 用 上 述 方法 来 估计 黄瓜 和 烟草 中 叶绿体 蛋白 1,2- 二 磷 
酸 核 酮 糖 羧 化 酶 /加 氧 酶 大 亚 基 ( rbcL ) 基因 [R] 的 d, 和 dw。 黄瓜 ( Cucumissativus ) rbcL dé [4] 的 
Genbank} 71] 5 HNC 007144 ,烟草 ( Nicotiana tabacum ) 为 Z00044。 在 黄瓜 和 烟草 基因 中 分 
别 有 476 个 和 477 个 密码 子 , 对 位 排列 后 的 序列 则 有 481 个 密码 子 。 我 们 删除 了 任意 一 个 物种 
对 位 排列 时 出 现 的 间 隅 密码 子 , 这 样 序列 中 就 剩 下 472 个 密码 子 。 

表 5-11 列 举 了 数据 的 一 些 基本 统计 值 ,它们 是 对 3 个 密码 子 位 置 分 别 进行 分 析 后 获得 
的 。 碱 基 组 成 不 等 ,第 三 个 密码 子 富 含 A/T。3 个 密码 子 位 置 的 转换 / 颠 换 置换 频率 的 比率 估 
计 值 大 小 依次 为 K3 >Ki > Ko 。 序 列 距离 的 估计 值 也 是 同样 的 顺序 d; d > 9 。 这 类 模 
式 在 和 集 昌 编码 基因 中 很 常见 ,反映 了 遗传 编码 结构 以 及 基本 上 所 有 和 氨基酸 都 处 于 选择 压力 
之 下 , 同 义 置换 率 高 于 非 同 义 置 换 率 。 当 对 密码 子 逐 一 进行 检测 时 ,两 个 物种 间 有 345 个 密 
码 子 是 一 致 的 ,115 个 密码 子 在 一 个 位 置 上 有 差异 ,其 中 95 个 是 同 义 的 ,20 个 是 非 同 义 的 。10 
个 密码 子 在 两 个 位 置 上 有 差异 ,2 个 密码 子 在 3 个 位 置 上 均 不 相同 。 


X5-11 黄瓜 和 烟草 rbcL 基 因 的 基本 统计 量 


l 472 0.179 0.196 0.239 0.386 2.202 0.057 
2 472 0.270 0.226 0.299 0.206 2.063 0.026 
3 472 0.423 0.145 0.293 0.139 6.901 0.282 
总 计 1416 0.291 0.189 0.277 0.243 3.973 0.108 


随后 ,1416 个 核 苷 酸 位 点 被 分 为 S=343.5 个 同 义 位 点 以 及 N=1072.5 个 非 同 义 位 点 。 在 两 
条 序列 间 观 察 到 141 个 差异 ,这 些 差异 分 为 $=103.0 个 同 义 变异 和 Nj=38.0 个 非 同 义 差异 。 因 
此 ,在 同 义 和 非 同 义 位 点 上 的 差异 比例 分 别 为 p,=S, /S=0.300 和 py=Ns/N=0.035。 使 用 JC69 校 
正 后 得 到 d=0.383 和 d=0.036, 其 比值 co = 4,/4,7 0.095 。 根 据 这 一 估计 ,该 蛋白 处 于 强烈 
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的 选择 压力 之 下 ,在 群体 中 发 生 一 个 非 同 义 突 变 的 概率 只 有 同 义 突变 的 9.5%。 








四 、 适 应 性 进化 基因 》》 


FEF o 比率 检验 获得 的 大 多 数 正 选择 基因 可 分 为 以 下 3 类 。 第 一 类 包括 针对 病毒 ` 细 函 、 
真菌 和 寄生 虫 攻击 的 防御 机 制 或 免疫 作用 中 的 笨 主 基因 ,以 及 与 破坏 箱 主 防御 机 制 有 关 的 
病毒 或 病原 基因 。 例 如 ,前 者 包括 主要 组 织 相 容 性 复合 体 淋巴 细胞 蛋白 CD54、 植 物 中 与 识 
别 病原 有 关 的 R 基 因 及 哺乳 动物 中 反 转 录 病 毒 抑制 剂 TRIM5 a; 后 者 包括 病毒 表面 或 包 膜 重 
晶 \ 症 原虫 细胞 腊 表 面 抗 原 以 及 由 植物 天 敌 ( 如 细菌 、 真 菌 、 卵 菌 、 线 虫 和 昆虫 ) 产 生 的 多 糖 。 
可 以 想见 ,病原 基因 由 于 受到 正 选择 进化 出 不 被 宿主 防御 机 制 识别 的 新 类 型 ,同时 宿主 也 必 
须 适应 并 识别 出 病原 ,这 就 激发 了 一 场 进 化 “军备 苋 赛 " ,驱动 新 的 蔡 代 突变 在 特 主 和 病原 中 
固定 。 蛇 或 蝎子 毒液 中 的 毒 厅 用 于 捕获 猎物 ,也 处 于 类 似 选 择 压力 下 ,因而 进化 速率 很 快 。 

第 二 类 主要 包括 与 生殖 有 关 的 重 日 质 或 信息 素 。 一 批 研 究 已 检测 到 有 关 精 - 卵 识别 重 
日 质 及 雄性 或 败 性 生殖 其 他 方面 的 快速 进化 。 这 些 基因 上 的 日 然 选 择 也 可 能 加 速 或 导致 新 
物种 形成 。 

第 三 类 正 选择 基因 与 上 述 两 类 有 所 重合 ,包括 基因 复制 后 获得 新 功能 的 基因 。 基 因 复 
制 是 基因 基因 组 和 遗传 系统 进化 的 初级 驱动 力 ,被 认为 在 新 基因 功能 进化 中 起 引领 作用 。 
复制 基因 的 命运 由 能 和 否 为 机 体 带 来 选择 优势 所 决定 ,多 数 复制 基因 被 清除 或 因 有 害 突变 失 
去 功能 而 退化 为 假 基因 。 由 于 亲 代 基因 需要 不 同 功能 ,有 时 新 拷贝 会 在 适应 进化 驱动 下 获 
得 新 功能 。 已 检测 到 许多 基因 在 基因 复制 后 经 历 加 速 重 日 质 进化 ,其 中 包括 灵 长 类 DAZ 基 
因 家 族 、 灵 长 类 绒毛 促 性 脲 重 白 。 群 体 遗 传 检验 也 表明 正 选择 在 复制 核 基因 早期 进化 动态 
中 的 重要 作用 。 

还 有 很 多 其 他 基因 也 被 检测 处 于 正 选择 之 下 ,尽管 它们 不 如 那些 参与 到 进化 车 备 欧 赛 
中 的 基因 (如 箱 主 -病原 搁 抗 作用 及 生殖 ) 那 么 多 。 这 也 许 是 基于 比率 的 检验 方法 的 局 限 
性 所 致 , 即 可 能 错过 一 次 性 的 适应 性 进化 。 在 这 种 进化 中 ,一 个 有 利 突变 出 现 并 迅速 在 群体 
中 扩散 开 来 , 接 旦 而 至 的 就 是 净化 选择 。 奋 要 检测 到 更 多 正 选择 ,也许 需要 改进 能 检测 影 啊 
东 个 谱系 上 少数 位 点 的 插曲 式 或 局 部 的 进化 方法 。 

统计 检验 不 能 证 明基 因 是 否 真 正经 历 适 应 性 进化 。 具 有 信服 力 的 例子 也 许 要 建立 在 实 
验 验证 和 功能 检验 上 ,两 者 在 观察 到 的 核酸 变化 与 重 日 质 折 县 以 及 表 型 变化 (如 催化 化 学 反 
应 的 效率 不 同 ) 之 间 建 立 直 接 联系 。 
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一 、 基 因 组 进化 概述 》》 


基因 组 学 ( Genomics ) 是 一 门 只 有 十 多 年 历史 的 新 兴学 科 , 发 展 极为 迅速 ,并 产生 了 许 
多 分 文学 科 。 随 着 人 研究 的 不 断 深入 , 它 已 从 结构 基因 组 学 ( structural genomics ) 进入 到 功能 
基因 组 学 ( functional genomics )。 利 用 基因 组 学 人 研究 的 方法 和 成 果 来 猎 究 生 物 进化 ,也 就 是 
进化 基因 组 学 ( evolutionary genomics ) 所 要 人 研究 的 问题 , 越 来 越 受到 进化 生物 学 人 研究 者 的 

目前 ,尽管 进化 基因 组 学 还 没有 正式 列 在 基因 组 学 的 议事 日 程 上 ,但 也 已 经 有 了 不 少 相 
关 的 研究 ,比较 基因 组 学 ( comparative genomics ) 就 是 其 中 之 一 。 对 不 同 生物 基因 组 结构 的 
异同 及 其 特点 进行 比较 ,除了 在 功能 基因 组 学 的 研究 上 很 有 意义 外 ,还 有 可 能 在 一 定 程度 上 
了 解 基因 组 的 进化 ,特别 是 基因 组 的 结构 特征 与 生物 复杂 性 的 关系 。 例 如 ,通过 比较 ,发 现 
基因 组 中 和 蛋白质 和 功能 RNA 基 因 的 密度 与 生物 的 复杂 程度 有 一 定 的 负 相 关 。 在 细菌 基因 组 
中 ,基因 的 平均 密度 是 1 个 基因 /1kb; 在 酵母 中 ,是 1 个 基因 /2kb; 而 线虫 是 1 个 基因 /5kb; AH 
是 1 个 基因 /13kb; 到 人 类 则 是 1 个 基因 /40kb。 这 种 密度 的 变化 显然 是 与 基因 组 进化 中 调控 元 
件 和 “ 非 基 因 序 列 ” 的 扩 增 有 关 。 

比较 基因 组 学 的 研究 还 表明 ,基因 和 基因 组 是 由 并 非 很 多 的 基本 结构 单位 (构件 ) 构 成 
的 ,而 这 些 构件 在 进化 中 被 反复 使 用 (重组 )。 以 形成 新 的 基因 和 基因 组 ,这 就 像 为 数 不 多 的 
化 学 元 素 可 以 组 成 无 数 的 化 学 物质 (分 子 ) 那 样 。 新 的 化 学 分 子 是 通过 已 有 元 素 或 分 于 之 间 
的 化 学 反应 产生 的 ,所 以 ,基因 组 的 进化 有 可 能 以 化 学 反应 作为 其 动态 模型 , 即 新 基因 组 的 
产生 是 通过 已 有 基因 或 基因 组 的 重组 、 重 排 、 重 新 建立 新 的 关系 而 达成 。 要 充分 认识 这 种 类 
比 的 意义 ,就 必须 开展 进化 基因 组 学 的 研究 。 

基因 组 的 进化 与 基因 组 的 三 维 结构 之 间 显然 也 有 很 重要 的 关系 。 人 与 黑猩猩 DNA 序 
列 的 相似 程度 达 99% ,两 者 的 差异 很 可 能 是 在 其 基因 组 的 三 维 结构 (包括 三 维 调控 关系 ) Eo 
因此 ,进化 基因 组 学 必 将 深入 进行 这 方面 的 全 究 。 

为 了 了 解 基因 组 及 其 发 展 变 化 的 本 质 , 当然 还 要 研究 与 生命 起 源 有 关 的 最 原始 的 基因 
和 基因 组 的 起 源 ,以 及 其 后 的 进化 模式 与 过 程 ,这 样 ,我 们 就 有 可 能 在 分 子 水 平 上 认识 生物 
进化 的 分 段 途径 。 总 之 ,进化 基因 组 学 将 是 基因 组 学 中 最 触及 事物 本 质 的 一 个 分 文 。 
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二 、 病 毒 基因 组 分 析 >>> 


对 生物 的 分 类 应 该 体现 其 系统 演化 。 对 病毒 来 说 , 它 的 生命 是 相对 脆弱 的 ,很 难 达 到 像 
古 细菌 .细菌 和 真 核 生 物 那 样 综合 全 面 的 程度 。 病 毒 也 受 突变 和 自然 选择 的 影响 ,并 且 病 毒 
基因 组 的 进化 速度 远 远 超过 其 他 细胞 的 基因 组 。 有 很 多 证 据 证 明 , 早 在 一 万 年 前 病毒 就 已 
经 存在 ,这 些 证 据 包 括 人 类 的 骨骼 残骸 ,历史 记录 和 遗物 。 然 而 ,远古 病毒 的 DNA 或 RNA 还 
没有 被 找到 。 

RNA 病 毒 基 因 组 的 RNA 聚 合 酶 一 般 缺 乏 校 正 能 力 。 这 导致 基因 组 的 突变 率 比 DNA 基 因 
组 高 100 万 ~1000 万 倍 。 对 于 DNA 病 毒 ,其 突变 率 一 般 比 宿主 细胞 高 10~1000 倍 。 除 了 高 突变 
率 , 许 多 病毒 的 复制 速度 也 是 极其 惊人 的 。 单 个 细胞 能 产生 10 0007 8588 JJ. I BED, 
而 一 个 被 艾滋 病 病 毒 感 染 的 个 体 一 天 能 产生 10 亿 个 病毒 颗粒 。 许 多 病毒 的 基因 组 由 相对 独 
立 的 多 个 片段 组 成 。 这 些 片段 能 够 在 病毒 复制 过 程 中 随机 重组 ,从 而 在 子 代 病毒 中 产生 大 
量 不 相同 的 子 类 。 流 感 病毒 几乎 每 年 都 能 引起 大 范围 的 疾病 流行 就 是 这 个 原理 的 体现 。 病 
毒 经 常 处 于 强大 的 选择 压力 下 ,如 宿主 的 免疫 反应 或 抗 病毒 药物 作用 。 因 此 ,艾滋 病 病 毒 快 
速 的 突变 和 复制 确保 某 些 病毒 株 通过 突变 产生 对 抗 病毒 药物 的 抗 性 ,而 且 会 经 受 环境 的 选 
择 而 存活 下 来 。 

病毒 经 过 漫长 的 进化 历程 已 经 能 够 侵入 系统 发 生 树 中 所 有 物种 : 古 细 菌 .细菌 和 真 核 
^E]. TE SE CECI ARE RE). 21 2793 8E SV A093: , P3 BERULCEBR IK IRR Je JA B ) 以 及 
I PRI AS C ATE Pal AS D X174 ) AREER A PARA “B-E SX RRE VUE. RIER 
生 了 显著 的 趋同 进化 ,否则 这 种 现象 一 般 说 明 这 些 病毒 是 同 源 的 。 感 染 植 物 和 动物 的 反 转 
录 病 毒 具 有 双 链 RNA 基 因 组 以 及 封装 它 的 特殊 衣 过 体 。 有 一 类 哈 菌 体 ( @6 ) 也 具有 这 种 特 
征 ,也 说 明了 感染 不 同 物种 的 病毒 之 间 具 有 同 源 性 。 在 对 这 些 病毒 基因 组 以 及 蛋白 质 的 分 
析 中 并 没有 发 现 序列 相似 性 ,再 次 凸显 了 病毒 基因 组 高 速 进化 的 特点 。 病 毒 基 因 组 的 高 度 
多 样 性 使 我 们 无 法 根据 其 序列 数据 绘制 出 涵盖 所 有 病毒 的 全 面 完 整 的 系统 发 生 树 ,这 反映 
了 病毒 基因 组 形成 历程 中 复杂 的 分 子 进化 事件 。 


三 .原核 生物 基因 组 比较 》》》 


(一 ) 与 人 类 疾病 相关 的 细菌 分 类 


细菌 和 真 核 生 物 已 经 相互 “交战 ” 几 百 万 年 了 。 细 菌 为 了 繁殖 需要 占据 人 体 这 个 营养 
丰富 的 环境 。 典 型 的 细菌 “殖民 地 ” 包 插 皮肤、 呼吸道 消化 道 ( 口 腔 、 大 肠 )、 尿 道 和 生殖 系 
统 等 。 据 估计 每 个 人 身上 的 细菌 数目 超过 自身 的 细胞 数目 。 大 多 数 情况 下 ,这 些 细 丙 对 人 
类 是 无 害 的 。 然 而 ,有 些 细菌 在 一 定 条 件 下 能 够 导致 感染 ,甚至 带 来 灾难 性 的 后 末 。 最 近 一 
些 年 ,由 于 广泛 使 用 抗生素 导致 了 细菌 抗 药性 的 增强 ,因此 急需 找到 细菌 的 毒性 因子 ,然后 
找到 相应 的 接种 疫苗 。 对 这 个 问题 的 一 个 解决 办 法 就 是 比较 细菌 的 致 病 株 和 非 致 病 株 。 


(二 ) 原核 生物 基因 组 比较 数据 库 
NCBI 提 供 了 一 个 非常 有 效 的 基因 组 比较 工具 ,并 且 使 用 起 来 非常 容易 。 从 基因 组 查询 


第 五 章 ”分 子 进化 分 析 235 一 
CHAPTER 5 MOLECULAR EVOLUTION ANALYSIS 


页 面 上 ,选择 果 蝇 ( Drosophila melanogaster ) 就 得 知 到 图 5-5 所 示 的 页 面 。 选 择 TaxPlot, 就 能 
够 将 两 个 基因 组 和 一 个 参考 基因 组 (如 caenorhabditis elegans 和 saccharomyces cerevisiae ) 进 
行 比 较 。 在 这 个 图 上 ,每 一 个 点 都 代表 参考 基因 组 中 的 一 个 蛋白 质 。x 坐 标 和 y 坐 标 显示 了 
被 比较 蛋白 质 组 中 每 个 蛋白 质 最 佳 匹配 的 BLAST 分 值 。 如 果 和 蛋白 质 都 在 图 的 对 角 线 上 , 表 
明 它 们 在 参考 和 集 白 和 输入 和 蛋 昌 中 的 分 值 相同 (或 者 几乎 相同 )。 然 而 ,也 有 值得 注意 的 异常 
值 ,代表 了 两 种 生物 不 同 表 型 的 重要 基因 。 这 些 点 是 可 以 点 击 的 (图 中 带 圆 圈 的 数据 点 )。 
TaxPlot 还 能 根据 COG 分 类 系统 规则 在 图 上 标注 颜色 。 











Select your query genome 
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11690 hits 70 equal hits 
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35500 3750 4000 4250 4500 
Saccharomyces cerevisiae (baker’s ye Saccharomyces cerevisiae (baker^s ye 


2017 hits 
20809 query proteins produced 13777 hits, from which 8 are selected. 
tach circle represents a single query genome protein, plotted by its BLAST scores to the highest scoring protein from each 
organisms. Symmetrical hits are shown as diamonds. Click on the protein(s) of interest or enter a query string to see the | 


图 5-5 Taxplot 界 面 示意 图 


在 整个 微生物 基因 组 的 比 对 中 最 大 的 挑战 就 是 来 用 动态 程序 , 比 对 上 百 万 的 碱 基 对 所 
需要 的 大 量 时 间 。 然 而 对 于 基因 组 比 对 来 说 ,这 些 工具 还 比较 初级 。MUMmer 软 件 包 提 供 
了 一 个 对 微生物 基因 组 进行 快速 准确 比 对 的 方法 。 最 近 , 经 过 对 算法 改进 后 ,也 能 够 对 真 核 
生物 序列 进行 比 对 。 

MUMmer 将 两 条 序列 作为 输入 。 这 个 算法 找到 了 所 有 的 长 于 一 个 设 定 的 最 小 长 度 值 并 
且 很 好 匹配 的 子 序列 。 根 据 定义 ,这 些 匹配 序列 是 最 小 的 ,因为 如 果 将 它们 向 任意 方向 延长 
一 点 就 会 导致 不 匹配 。 

MUMmer 的 输出 结果 由 点 阵 图 组 成 (图 5-6 ), 该 结果 以 最 小 比 对 长 度 150bp 为 序 ,显示 了 
两 个 基因 组 序列 的 比 对 结果 。 结 果 包 括 如 下 内 容 : SNPs; 比 单个 SNP 更 加 分 散 的 序列 区 域 ; 
大 的 插入 片段 (例如 ,经 过 转 座 序列 逆转 和 水 平 基 因 转 移 ); 散在 重复 片段 (例如 ,一 个 基因 
组 中 的 复制 ); 片段 串联 重复 (拷贝 数 )。 

大 肠 埃 希 菌 K12 和 大 上 肠 埃 希 菌 0157 : H7( 在 受 污染 的 食品 中 有 这 个 戎 株 , 会 导致 如 出 血 
性 结肠 炎 之 类 的 疾病 )。 在 大 约 45 亿 年 前 发 生 分 枝 。 测 序 并 比较 两 个 基因 组 ,发 现 大 肠 埃 希 
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图 5-6 MUMmer 输 出 结果 


#0157 : H17 大 约 比 大 上 肠 埃 希 落 K12 长 了 859 000 个 碱 基 对 。 这 两 个 细菌 有 大 约 4.1Mb 的 痊 
同 基 因 组 骨架 ,大肠 埃 希 菌 01$7 : H7 有 另外 1.4Mb 的 序列 (大 部 分 通过 水 平 基因 转移 得 到 ) 
MUMmer 的 输出 结果 对 于 找 出 两 个 基因 组 中 的 共同 区 域 和 反 回 重复 区 域 非常 有 用 


四 、 和 蛋白 质 互 作 网 络 进化 》》 


近年 来 , 随 厦 鉴 ; DIE E Hf EAS AR ET rg ABE i SE Tt 7 (TREE LR AC, fe EHCOLUE , HEF 
oa tes AY eR AR A (65 ) LL AE I EE AE BE LIIS AE 5 I HR] , RRRS 
的 集 日 质 互 作 数 据 涌现 出 来 ,为 进化 研究 提供 了 ue 
Xj AG A Jt AE fr B) E £55) Pr A oP A do Eid: SA a TR. SA ot TEXT protein 
interaction pair )、 模 体 ( motif ), [« THEE network module ) 以 及 整个 网 络 。 即 按照 包含 重唱 
质 的 数目 将 网 络 进化 问题 分 层 : 第 一 层 是 仅 包 含 一 个 蛋白 的 蛋白 质 个体 ; 第 二 | BAST PS 
EAE A HEX; 网 络 模 体 We I A ot, Ao J; 网 络 模块 作为 第 四 层 , 相 
对 于 之 醒 的 三 层 包含 的 集 日 数目 更 多 ,是 可 能 由 模 体 组 成 ; 第 五 层 则 是 整 个 网 络 的 进化 AT 
DT ,探究 网 络 的 发 生发 展 过 程 


一 ) 网 络 中 的 蛋 日 质 个 体 进化 


和 集 日 质 互 作 网 络 对 和 集 日 质 个 体 进化 性 质 的 影 啊 , 即 重 白 质 互 作 是 否 会 减 慢 集 白质 进化 
速率 ,是 在 集 日 质 个 体 层 面 上 人 研究 网 络 进化 的 主要 问题 

由 于 人 研 究 独 选择 的 研究 对 和 象 多 数 为 酵母 ,尽管 所 选 的 互 作 数 据 不 同 , 采 用 的 进化 速率 评 

估 方 法 ,寻找 直 系 同 源 集 白 的 方法 及 所 统计 分 析 方 法 等 不 尽 相 同 , 但 从 现 有 的 研究 成 果 可 以 

得 出 如 下 绪论 : 集 日 连接 度 同 其 进化 速率 之 间 可 能 存在 较 轮 的 负 相 关 关 系 。 因 为 影 啊 重 日 

页 进化 速率 的 因素 很 多 ,除了 与 网 络 拓扑 性 质 相 关 的 和 蛋白 连接 度 ( 由 互 作 数目 定义 ), 和 蛋白 中 
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心性 (由 介 数 定义 ) 外 ,还 有 可 能 与 蛋白 表达 水 平 ,蛋白 必要 性 ,蛋白 质 功能 及 其 参与 的 生物 
学 过 程 ,蛋白 质 丰 度 ,密码 子 适 应 指数 等 有 关 , 并 且 这 些 因素 之 间 存在 错综复杂 的 依赖 关系 。 


(Z) 网 络 中 的 蛋白 互 作 对 进化 


互 作 的 两 个 重 日 质 在 进化 上 是 否 超 癌 具有 相似 的 性 质 ? 在 分 子 水 平 上 是 否 趋 向 共 进 
化 ? 这 是 网 络 中 蛋白 互 作 对 进化 研究 要 回答 的 问题 。 

多 年 来 , 侠 究 痢 开发 了 许多 预测 重 日 奈 互 作 的 方法 ,如 比较 基因 组 学 方法 、 利 用 系统 发 
育 树 相 似 性 进行 预测 的 方法 .利用 基因 表达 水 平 相关 性 进行 预测 的 方法 和 同 源 预 测 方法 等 ， 
这 些 方法 多 是 基于 相互 作用 和 集 日 共 进 化 的 思想 。 这 些 预 测算 法 的 成 功 ,从 为 一 个 角度 为 互 
作 和 集 日 具有 共 进 化 的 现象 提供 有 力 证 据 。 目 前 学 术 界 普遍 认同 的 观点 是 : EY SE A J ti 
丫 于 具有 更 相似 的 进化 速率 , 且 网 络 中 的 重 日 互 作对 在 表达 水 平等 层次 上 也 可 能 存在 微 轮 
的 共 进 化 现象 。 对 于 这 一 观点 的 解释 主要 有 两 种 ,一 种 假设 为 , 共 进 化 是 施加 在 互 作 的 重 日 
对 上 相似 进化 压力 的 结果 。 相 似 的 进化 压力 可 能 来 源 于 作用 在 这 两 个 互 作 和 集 白 对 上 的 相似 
调控 机 制 ,如 协同 转录 和 调控 等 。 这 种 假设 不 仅 适 用 于 解释 发 生 直接 物理 互 作 和 集 昌 对 间 的 
共 进 化 ,对 共 至 一 个 生物 竺 关系 的 一 组 绰 日 质 的 共 进 化 现 象 也 同样 适用 。 为 一 种 假设 为 , 共 
进化 直接 与 互 作 各 日 的 共 适 应 相关 。 即 当 香 日 序列 上 直接 或 者 间接 通过 影 啊 重 日 质 折 登 而 
参与 互 作 的 位 点 发 生 有 害 突变 时 ,与 其 互 作 的 生日 通过 发 生 互补 的 改变 来 维持 两 重 白 的 互 
作 关 系 ,进而 保持 功能 。 综 合 两 种 假设 , 即 两 种 共 进 化 推动 力 可 能 是 在 不 同 程度 ,不 同 水 平 
和 不 同情 况 下 发 挥 各 日 的 作用 。 


(=) 网 络 中 的 模 体 进化 


网 络 模 体 是 指 复杂 网 络 中 在 不 同位 置 重 复出 现 的 特定 的 相互 连接 模式 ,在 数量 上 显著 
地 高 于 随机 期 望 ,一 般 含 有 3~5 个 节点 。 对 于 网 络 模 体 进化 的 研究 主要 集中 在 探讨 模 体 是 否 
对 其 成 员 和 蛋白 进化 具有 约束 作用 。 研 究 表明 , 模 体 成 员 蛋 日 要 比 非 模 体 成 员 重 白 在 进化 上 
更 具有 保守 性 。 在 不 同 拓 扑 结 构 模 体 中 ,成 员 和 蛋白 的 保守 性 不 同 ,可 能 的 原因 是 不 同 的 模 体 
模式 所 承受 的 进化 约束 显著 不 同 。 


(四 ) 网 络 中 的 模块 进化 


和 蛋白质 互 作 网 络 具 有 层次 模块 化 特性 。 功 能 模块 的 最 显著 特点 是 其 往往 表现 出 可 能 在 
功能 和 拓扑 上 互相 联系 ,在 蛋白 互 作 网 络 中 主要 以 蛋白 质 复合 物 的 形式 存在 。 目 前 的 研究 
成 果 表 明 ,网 络 的 模块 化 对 和 蛋白质 进 化 可 能 有 约束 作用 ,成 员 和 蛋白 之 间 在 进化 速率 ,表达 水 
平等 方面 表现 出 共 进 化 特性 。 类 似 蛋 白质 互 作 预 测 领 域 ,许多 功能 模块 预测 算法 ( 如 比较 基 
因 组 学 方法 ) 都 是 基于 模块 成 员 和 蛋白 共 进 化 的 思想 ,其 成 功 也 反 过 来 支持 了 功能 模块 成 员 集 
白 的 共 进 化 特点 。 


(五 ) 网 络 的 整体 进化 


研究 蛋白 质 互 作 网 络 整体 进化 的 最 主要 问题 是 蛋白 质 互 作 网 络 的 起 源 。 随 之 而 来 的 问 
题 是 蛋白 质 互 作 网 络 具 有 的 无 尺度 ( scale-free ) 分 布 , 小 世界 ( small world ) 性质 和 模块 化 结 
构 等 是 如 何 起 源 和 进化 的 ”这 些 特性 的 存在 是 生物 体 长 期 进化 过 程 中 自然 选择 的 结果 ,还 
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是 存在 内 在 约束 机 制 使 其 发 生成 为 不 可 避免 的 趋势 ? 

多 年 来 ,学 者 们 先后 提出 了 多 个 无 尺度 和 小 世界 网 络 的 进化 模型 。 目 前 应 用 最 为 广 
沁 的 是 优先 连接 模型 和 复制 -分 歧 模 型 。 优 先 连 接 模型 描述 网 络 的 生长 是 通过 不 断 癌 
网 络 中 添加 新 的 节点 来 实现 的 ,而 新 添加 的 节点 倾向 于 优先 与 原 有 网 络 中 度 高 的 节点 连 
接 。 这 一 模型 揭示 的 问题 是 蛋白 质 年 龄 与 连接 度 之 间 存 在 的 强烈 而 显著 的 关系 , 即 和 蛋白 
质 起 源 越 早 , 其 连接 度 越 高 。 并 且 当 控制 表达 水 平 后 ,这 种 关系 并 没有 被 显著 地 削弱 。 
在 复制 -分 履 模型 中 ,网 络 中 的 初始 蛋白 质 被 随机 选择 并 复制 , 且 伴 随 该 蛋白 质 参 与 的 
所 有 互 作 。 随 后 ,基因 突变 导致 副本 和 原 和 蛋白 逐渐 发 生 分 歧 , 表 现 为 它们 参与 的 互 作 发 
生 改变 。 从 生物 信息 学 的 角度 , 则 可 以 理解 为 基因 组 层面 上 的 改变 在 网 络 拓扑 结构 变化 
上 的 体现 。 有 研究 表明 ,酵母 中 至 少 有 40% 的 蛋白 质 互 作 来 源 于 复制 事件 。 而 对 于 蛋白 
质 复 合 物 的 起 源 和 进化 研究 显示 ,有 相当 一 部 分 复合 物 是 通过 逐步 的 部 分 复制 而 进化 来 
的 ,并 且 被 复制 的 复合 物 仍然 保持 原 复 合 物 的 核心 功能 ,但 具有 不 同 的 绑 定 特异 性 和 规 
则 ,具体 见 图 $-7。 
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图 5-7 4 ÁN A A e A 
第 一 层 表 示 网 络 中 的 蛋白 质 个 体 进化 ,表明 蛋白 连接 度 同 其 进化 速率 之 间 存 在 较 弱 的 负 相 关 关 系 。 第 二 层 
表示 网 络 中 的 蛋白 互 作对 进化 ,揭示 出 互 作 的 蛋白 质 倾向 于 具有 更 相似 的 进化 速率 可 能 由 多 种 因素 导致 。 
第 三 层 表 示 网 络 中 的 模 体 进化 , 模 体 成 员 蛋 白 更 具有 保守 性 。 第 四 层 表 示 网 络 中 的 模块 进化 ,成 员 蛋 白 之 
间 在 进化 速率 表现 出 共 进 化 特性 。 第 五 层 表 示 网 络 的 整体 进化 中 的 复制 -分 歧 模 型 


五 .代谢 网 络 进化 分 析 》》 


各 种 高 通 量 技术 和 代谢 通路 数据 库 的 发 展 使 得 分 析 代 谢 网 络 进化 ( metabolic network 
evolution ) 成 为 可 能 。 一 般 说 ,生物 网 络 具 有 稳健 性 和 进化 性 的 一 个 主要 原因 归功 于 其 模块 
化 组 织 。 模 块 定义 为 一 组 连接 非常 紧密 的 基因 或 酶 的 集合 ,功能 相对 独立 ,而 模块 与 模块 之 
国 的 连接 较为 黎 踊 。 从 仅 有 几 个 基因 的 简单 网 络 能 够 利用 计算 机 模拟 的 手段 构建 出 具有 几 
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百 个 节点 上 干 条 边 的 大 网 络 。 男 外 ,有 些 人 研究 通过 比较 多 个 物种 的 拓扑 结构 对 代谢 网 络 的 
进化 机 制 进行 探讨 ,发 现 不 同 代谢 通路 的 拓扑 特征 提供 不 同 的 系统 发 育 信 息 。 


(一 ) 代谢 网 络 模 块 性 的 进化 分 析 


一 个 生物 网 络 中 的 模块 包含 很 多 元 素 (例如 和 蛋白质 或 反应 ), 这 个 模块 形成 了 一 个 结构 
上 的 子 系 统 , 并 且 有 其 独特 的 功能 。 在 代谢 网 络 中 ,存在 很 多 小 的 ,高 连接 度 的 模块 ,这 些 模 
块 又 分 层 组 合成 为 大 的 单元 。 对 于 模块 的 进化 ,目前 主要 有 两 个 假设 : 一 是 模块 倾向 于 正 选 
择 , 因 为 已 经 限定 好 的 模块 能 维持 细胞 的 功能 ,通过 模块 的 进化 变化 能 够 提升 其 可 进化 性 ; 
二 是 尽管 模块 不 能 直接 通过 选择 进化 ,但 模块 之 间 在 进化 上 存在 一 致 性 ,还 能 通过 其 他 可 以 
被 选择 的 性 质 , 例 如 由 水 平 基 因 转 移 引 起 的 基因 聚 类 的 加 速 , 多 效 性 的 最 小 化 ,和 对 新 环境 
的 适应 性 等 。 

由 于 生物 之 间 的 遗传 相关 ,其 代谢 网 络 也 存在 着 一 定 的 相似 性 ,所 以 系统 发 育 相 近 的 生 
物 代 谢 网 络 模块 也 应 该 是 相近 的 。 伴 随 模块 内 变异 逐渐 增多 ,物种 之 间 的 差异 也 就 越 大 , 相 
反 亦 然 。 如 果 对 不 同 物种 代谢 模块 统计 相应 得 分 ,就 可 以 根据 这 个 得 分 构建 生物 代谢 系统 
发 育 树 。 但 对 模块 的 变异 量化 研究 存在 一 定 难 度 , 如何 计算 每 种 生物 代谢 网 络 的 得 分 是 研 
究 关键 . 

Anat Kreimer 等 人 成 功 解决 了 这 个 问题 ,他 们 根据 模块 的 特性 ,使 用 Newman 的 算法 计算 
代谢 网 络 中 模块 的 得 分 ,根据 每 个 物种 计算 得 到 的 代谢 模块 分 数 建 立 距离 矩阵 ,形成 了 如 下 
图 (图 5-8 ) 所 示 的 系统 发 育 树 。 
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图 5-8 利用 代谢 网 络 模块 得 分 建立 其 系统 发 育 树 
(二 ) 代谢 与 环境 互 作 的 进化 分 析 
代谢 网 络 一 般 是 在 一 定 的 生化 环境 下 行使 功能 ,同时 通过 吸收 和 分 泌 各 种 有 机 和 无 机 


240 BAS “分子 进化 分 析 


CHAPTER 5 MOLECULAR EVOLUTION ANALYSIS 


的 化 合 物 来 与 环境 发 生 互 作 。 例 如 在 网 络 内 部 新 陈 代谢 流动 性 的 分 布 或 生命 体 的 增长 率 都 
是 通过 这 种 作用 来 完成 。 

和 环境 的 这 种 相互 作用 在 一 定 程 度 能 够 在 代谢 网 络 的 结构 进化 上 反映 ,所 以 这 些 代谢 
网 络 不 应 只 是 单单 推断 代谢 功能 ,还 应 当 能 够 观察 到 物种 和 环境 互 作 进化 的 现象 。 在 分 析 
代谢 网 络 的 拓扑 结构 时 ,有 一 类 化 合 物 是 通过 外 源 获 得 ,这 类 化 合 物 定义 为 “种 子 集合 "。 如 
果 一 个 物种 的 环境 能 够 决定 其 代谢 反应 ,那么 这 些 “ 种 子 集合 ”就 是 代谢 网 络 与 外 界 环境 之 
间 一 个 很 好 的 代理 (图 5-9 )。 
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在 代谢 网 络 中 鉴定 种 子 复合 : A. 代 谢 网 络 与 环境 相互 作用 的 示意 图 ,种 子 是 用 红色 标记 ; B. 代 谢 网 络 中 种 子 
获得 过 程 。 网 络 首先 用 kosaraju 的 强 连通 组 分 (SCC ) 的 方法 分 解 , 子 网 中 的 源 组 分 就 是 要 找 的 种 子 。 图 中 
的 源 组 分 是 用 红色 表示 的 ,节点 颜色 的 饱和 程度 代表 种 子 的 置信 程度 ;C.Buchnera 代 谢 网 络 图 ,红色 为 种 子 
复合 物 


每 种 生物 的 代谢 网 络 种 于 集合 是 不 同 的 ,根据 集合 中 的 基因 在 这 种 生物 是 否 存在 可 以 
构造 进化 的 距离 矩阵 。 因 为 在 进化 过 程 会 有 新 的 化 合 物 以 种 子 或 者 非 种 子 的 身份 加 入 到 代 
谢 网 络 中 ,如 果 是 以 种 子 的 身份 被 整合 到 代谢 网 络 中 ,这 个 种 子 存 在 的 状态 可 能 不 会 太 长 ， 
要 么 从 代谢 网 络 中 被 拿 掉 ,要 么 快速 变 为 非 种 子 化 合 物 。 





第 四 三 
应 用 实例 : SARS 流 行 病 的 系统 发 生 分 析 








Section 4 Reconstructing the Origin and the Diffusion of the SARS Epidemic 


2003 年 2 月 28 日 , 骏 发 一 场 大 规模 的 流行 系 疾 病 , 经 确认 ,命名 为 急性 呼吸 系统 综合 征 
( Severe Acute Respiratory Syndromes, SARS ). [H4E3H 15H , WHO 发 布 全 球 和 警告 , 称 SARS 为 
“世界 范围 的 健康 威 肋 ”。 他 们 警告 可 能 的 地 点 包括 加 拿 大 印度尼西亚 .菲律宾 .新 加 坡 .和 泰 
国 和 越南 。 

流行 病 的 起 源 : 尽管 SARS 的 起 源 和 原因 还 不 知道 ,但 应 该 离 我 们 知道 的 时 间 不 远 ,我 们 
通过 分 析 多 个 SARS 基 因 组 就 可 以 知道 这 个 疾病 是 怎样 发 生 和 它 的 起 源 以 及 如 何在 许多 国 
家 扩散 的 。 在 2003 年 3 月 的 第 3 周 , 美 国 、 加 拿 大 德国 及 中 国 香港 分 别 独 立 的 从 SARS 患 者 号 
上 分 离 出 新 的 冠状 病毒 ( SARS-CoV )。 

通过 分 析 大 量 的 完整 病毒 基因 组 数据 集 , 可 以 回答 我 们 很 多 重要 的 问题 。 这 里 ,我 们 也 
将 提出 一 些 工 具 来 回答 这 些 问题 中 的 一 部 分 。 是 怎样 一 种 病毒 导致 了 这 样 一 场 流行 病 ? 这 
种 病毒 的 原始 宿主 是 什么 ”跨越 物种 陪 碍 的 时 间 和 地 点 ?是 怎样 一 个 关键 突变 让 这 种 转换 
成 为 可 能 ? 

为 了 回答 这 些 问 题 ,我 们 首先 要 了 解 一 些 系 统 发 生 分 析 关 键 算 法 ,这 些 在 前 面 草 万 中 
已 经 提 到 过 ,然后 把 这 些 算法 应 用 于 2003 年 获得 的 SARS 数 据 ( 所 有 这 些 数据 都 可 从 Genbank 
获得 )。 

1. SARS 基 因 组 ”SARS-CoV 基 因 组 是 在 2003 年 4 月 由 加 拿 大 团队 获得 的 ,29 751bp 的 单 
链 RNA 订 列 。 我 们 可 以 通过 GenBank 获 得 这 个 数据 (查询 编号 为 AY274119.3 )。 在 图 5-10 中 
提供 了 该 病毒 的 基因 图 谱 。 其 GC 含量 大 概 是 41%, 是 已 经 公布 的 冠状 病毒 基因 组 GC 含量 范 
用 之 内 的 。 并 且 由 一 个 典型 的 冠状 病毒 结构 ,按照 一 定 的 顺序 排列 5 个 或 者 6 个 基因 。 

2. SARS 流 行 发 生 重 构 “在 SARS 流 行 病 发 生 的 时 候 , 有 关 其 起 源 和 本 质 等 许多 关键 
的 问题 都 可 以 通过 基因 组 序列 分 析 来 获得 。 在 2003 年 早期 多 个 团体 就 已 经 获得 和 发 布 了 
SARS 的 序列 ,并 以 此 作为 基础 作为 探寻 流行 病 起 源 和 扩散 ,现在 我 们 可 以 用 GenBank 中 的 许 
多 病毒 序列 来 研究 这 次 流行 病 。 我 们 选取 了 13 条 已 知 获取 时 间 和 地 点 的 序列 ,然后 展示 如 
何 用 这 些 序列 来 挖掘 这 次 流行 病 的 信息 。 

JE FE Ta d: SARS 病 毒 在 早期 被 认为 是 告状 病毒 ,和 已 知 其 他 告状 病毒 有 相同 序列 的 基 
因 。 然 而 , 它 又 是 完全 不 同 于 其 他 已 知人 类 冠状 病毒 ,因此 ,很 可 能 是 从 其 他 动物 中 起 源 的 。 
我 们 使 用 多 种 动物 冠状 病毒 的 蛋白 质 构 建 了 邻接 树 ,其 中 包括 了 在 果子 狸 中 发 现 的 冠状 病 
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Pair—wise distances ( splice protein of sequences ) 





2 4 6 8 10 12 14 


图 5-10” SARS 病毒 两 两 比 对 遗传 距离 


毒 。SARS 看 起 来 和 来 子 狸 冠 状 病毒 最 相近 ,和 人 类 其 他 冠状 病毒 都 比较 远 . 

使 用 表 5-12 的 13 个 基因 组 ,我 们 用 邻接 法 构建 了 系统 发 生 树 ,这 种 疾病 并 不 是 通过 乌 类 
携 市 的 ,而 是 起 源 于 果子 狸 , 然 后 在 人 类 中 传播 。 这 个 距离 矩阵 是 通过 Jukes-Cantor 模 型 计 
算 的 距离 矩阵 并 且 用 核 苷 酸 序列 做 全 局 比 对 进行 校正 作为 遗传 距离 


表 5-12 SARS 病 毒 发 生 时 间 及 地 点 调查 表 


Table Name, location, and sampling date of SARS virus isolates used in our case study 

Name of isolate Acc.number Date Location 

GZO01 AY278489 DEC-12-2002 Guangzhou ( Guangdong ) 

ZS-A A Y394997 DEC-22-2002 Zhongshan ( Guangdong ) 

ZS-C A Y 395004 JAN-04-2003 Zhongshan ( Guangdong ) 

GZ-B AY394978 JAN-24-2003 Guangzhou ( Guangdong ) 

HZS-2A AY394983 JAN-31-2003 Guangzhou Hospital 

GZ-50 AY304495 FEB-18-2002 Guangzhou ( Guangdong ) 

CUHK-W1 AY 278554 FEB-21-2003 Hong Kong 

Urbani AY278741 FEB-22-2003 Hanoi 

Tor 2 AY274119 FEB-27-2003 Toronto 

$in2500 AY 283794 MAR-01-2003 Singapore 

TW] AY291451 MAR-08-2003 Taiwan 


CUHK-AGO! AY345986 MAR-19-2003 Hong Kong 
Palm civet AY627048 Palm civet 


从 这 棵 树 上 ,我 们 能 够 流行 病 的 整个 过 程 。 如 果 把 来 子 狸 作为 外 类 群 ,我 们 1 
以 看 到 所 有 早期 的 病例 都 是 发 生 在 广东 省 ,并且 Hotel Metropole 冠 状 病毒 几乎 和 它们 中 
条 序列 是 完全 一 致 
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因为 我 们 已 经 知道 每 个 测序 的 SARS 病 毒 收 集 的 时 间 ,这 样 就 能 观察 到 经 过 夺 干 时 间 突 
变 的 过 程 。 方 便 起 见 ,我 们 使 用 了 spike 蛋 白质 对 应 的 开放 读 码 框 。 相 对 于 从 果子 狸 获 得 的 
序列 ,我 们 看 到 其 遗传 距离 随 着 时 间 在 粗略 按 线性 模式 逐渐 提高 (x 轴 表 示 时 间 , 原 点 代表 
2003 年 1 月 1 日 )。 如 果 我 们 在 这 些 数 据 中 插入 最 小 二 乘法 的 拟 合 曲 线 , 就 可 以 估计 这 次 流行 
病 起 源 的 大 概 时 间 。 任 何 一 个 在 零点 附近 日 期 都 可 能 是 开始 的 时 间 ,估计 在 2002 年 9 月 16 日 
到 2003 年 1 月 1 日 之 间 。 这 种 方法 是 比较 粗糙 的 ,而 且 其 中 很 多 假设 我 们 还 都 没有 证 实 ,但 仍 
然 给 我 们 一 个 很 可 能 的 时 间 点 ,最 早 的 病例 报道 可 以 追溯 到 2002 年 的 下 半年 。 





( 张 绍 军 ) 
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NEXT-GENERATION SEQUENCING DATA 
ANALYSIS 


DNA 测 序 技术 已 广泛 应 用 于 生物 学 研究 的 各 个 领域 ,很 多 生物 学 问题 都 可 以 借助 
高 通 量 DNA 测 序 技术 予以 解决 。 这 几 年 ,大 规模 平行 测序 平台 ( massively parallel DNA 
sequencing platform ) 已 经 发 展 为 主要 的 测序 技术 ,这 项 测序 技术 的 出 现 不 仅 令 DNA 测 
序 费用 降 到 了 很 低 , 还 让 基因 组 测序 这 项 以 前 专属 于 大 型 测序 中 心 所 拥有 的 “特权 ”能 
够 被 众多 研究 人 员 分 享 。 同时 新 一 代 DNA 测 序 技术 有 助 于 人 们 更 全 面 、 更 深入 地 分 析 
基因 组 .转录 组 及 蛋白 质 之 间 交 互 作用 组 的 各 项 数据 ， 今 后 ,各 种 测序 将 成 为 一 项 广 
泛 使 用 的 常规 实验 手段 ,这 有 望 给 生物 学 和 生物 医学 研究 领域 市 来 革命 性 的 变革 
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Section 1 Whole Genome De Novo Sequencing and Resequencing 


基因 组 测序 工作 始 于 20 志 纪 70 年 代 。1990 年 启动 的 人 类 基因 组 计划 标志 着 基因 组 测序 
的 革命 性 发 展 ,在 人 类 基因 组 计划 开展 过 程 中 开发 出 的 一 系列 关键 技术 ,如 物理 图 谱 的 构建 、 
序列 拼接 海量 序列 数据 存储 与 分 析 等 ,为 其 他 生物 基因 组 测序 计划 的 顺利 完成 提供 了 重要 
的 文 撑 。 至 今 ,已 经 有 较 完 整 的 全 基因 组 序列 数据 的 物种 包括 超过 39 种 类 病毒 . 2115 种 病毒 、 
58 种 古 细 菌 1269 种 细菌 ,69 种 真菌 ,29 种 原生 生物 、10 种 植物 和 78 种 动物 (图 6-1 )。 随 着 第 二 
代 测 序 技术 的 迅猛 发 展 ,生物 科学 界 也 开始 越 来 越 多 地 应 用 第 二 代 测 厅 技 术 来 解决 生物 学 
问题 。 比 如 在 基因 组 水 平 上 对 还 没有 参考 序列 的 物种 进行 从 头 测 序 ( de novo sequencing ), 2X 
得 该 物种 的 参考 序列 ,为 后 续 研 究 和 分 子 育 种 葛 定 基础 ; 对 有 参考 序列 的 物种 ,进行 全 基因 
组 重 测序 ' resequencing ), 在 全 基因 组 水 平 上 扫描 并 检测 突变 位 点 ,是 发 现 个 体 差 异 的 分 子 基 
础 。 在 转录 组 水 平 上 进行 全 转录 组 测序 ( whole transcriptome resequencing ), M mi JT JE n] 25 93 
接 .编码 序列 单 核 背 酸 多 态 性 (ecSNP ) 等 位 特异 表达 等 赋 究 ; 或 者 进行 小 分 子 RNA 测 厅 ( small 
RNA sequencing ), 通 过 分 离 特定 大 小 的 RNA 分 子 进 行 测序 ,从 而 发 现 新 的 microRNA 分 于 。 在 
转录 组 水 平 上 ,与 染色 质 免 疫 共 沉 演 ( ChIP ) 和 甲 基 化 DNA 人 免疫 共 沉 洗 ( MeDIP ) 技 术 相 结合 ， 
从 而 检测 出 可 能 与 特定 转录 因子 结合 的 DNA 区 域 和 基因 组 上 的 甲 基 化 位 点 

1977 年 化 学 家 sanger 发 明了 双 脱 氧 链 终 止 DNA 测 序 技术 ， 并 因此 获得 1980 年 的 诺 贝尔 化 
学 奖 。 这 项 技术 一 直 沿 用 至 今 ,被 应 用 于 基因 研究 的 各 个 领域 。 为 人 类 基因 组 计划 ( HGP ) 
ÉR FS Sa 

TOU) Fr a AAR E ELTE RAE HE [81x B ex JT 8 , BEL EE PE EY EE, JF HTE RE 
个 碱 基 后 面 进行 灾 光 标记 ,产生 以 A、T、C、G 绪 束 的 四 组 不 同 长 度 的 一 系列 核 甘酸 ,然后 在 
尿素 变性 的 PAGE 胶 上 电泳 进行 检测 ,从 而 获得 可 见 的 DNA 碱 基 序 列 。Sanger 法 测序 的 原理 
就 是 ,每 个 反应 含有 所 有 四 种 脱氧 核 芽 酸 三 磷酸 ( dNTP ) 使 之 扩 增 ,并 混入 限量 的 一 种 不 同 
的 双 脱 氧 核 背 三 磷酸 (ddNTP ) 使 之 终止 。 由 于 ddNTP 缺 乏 延伸 所 需要 的 3” -OH 基 团 ,使 延 
长 的 寡 聚 核 背 酸 选 择 性 地 在 C、A 、T 或 C 处 终止 ,终止 点 由 反应 中 相应 的 双 脱 氧 而 定 。 每 一 
种 dNTPs 和 ddNTPs 的 相对 浓度 可 以 调整 ,使 反应 得 到 一 组 长 几 个 至 千 以 上 个 ,相差 一 个 碱 基 
一 系列 片段 。 它 们 具有 共同 的 起 始点 ,但 终止 在 不 同 的 核 革 酸 上 ,可 通过 高 分 状 到 变性 凝 胶 
电泳 分 离 大 小 不 同 的 片段 , 凝 胶 处 理 后 可 用 X- 光 胶片 放射 目 显 影 或 非 放 射 性 核 素 标记 进行 
检测 。 
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病毒 2,115 2,115 Megabace 1000 1997 d 基因 组 测序 技术 储备 阶段 
十 细菌 32 6 52 58 - 
细菌 638 563 706 1, 269 ABI 3700 1998 
tk d 16 18 33 51 
真菌 35 59 10 69 — 
原生 生物 24 23 6 29 Megabace 4000 I: v 模式 生物 和 人 类 基因 组 测序 
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图 6-1 基因 组 测序 发 展 概况 


20 直 纪 末 ,测序 速度 与 质量 得 到 了 进一步 的 提高 。 第 一 ,平板 电泳 分 离 技术 被 毛细 管 电 
泳 所 取代 ; Re 进行 测序 的 样本 数量 增加 。 使 用 毛细 管 
百代 平板 凝 胶 取 消 了 手工 上 样 ,降低 了 试剂 的 消耗 ,提升 了 分 析 的 速度 。 男 外 ,紧凑 的 毛细 
管 电泳 设备 的 形式 更 易于 实现 并 行 化 ,可 以 获得 更 高 的 通 量 。ABI3730 测 序 仪 和 Amersham 
Mega-BACE 分 别 可 以 在 一 次 运行 中 分 析 96 个 或 384 个 样本 。 这 一 代 测 序 仪 在 人 类 基因 组 计 
划 DNA 测 序 的 后 期 阶段 起 到 了 关键 的 作用 ,而 且 由 于 其 在 原始 数据 质量 以 及 序列 读 长 方面 
具有 优势 。 加 速 了 人 类 基因 组 计划 的 完成 。DNA 测 序 技术 经 过 30 多 年 的 发 展 ,目前 已 经 到 
了 第 三 代 , 三 代 测 序 技术 有 各 自 的 优势 。 通 过 几 十 年 的 逐步 改善 ,第 一 代 测 序 仪 的 读 长 可 以 
超过 1000bp ,原始 数据 的 准确 率 可 以 高 达 99.999% ,每 天 的 数据 通 量 可 以 达到 600 000 碱 基 。 
因此 Sanger 法 第 一 代 测 序 技 术 仍 在 广泛 使 用 ,并 且 对 于 少量 的 序列 来 说 , 仍 是 最 好 的 选择 。 





BP 
新 一 代 测 序 技术 和 工作 流 





248 


Section 2 Work Flow of Next-Generation Sequencing 


高 通 量 测序 技术 是 对 传统 测序 一 次 革命 性 的 改变 ,一 次 对 几 十 万 到 几 百 万 条 DNA 分 了 于 
进行 序列 测定 ,因此 在 有 些 文献 中 称 其 为 下 一 代 测 序 技 术 ( next generation sequencing ) AE. D, 
其 划时代 的 改变 ,同时 高 通 量 测序 使 得 对 一 个 物种 的 转录 组 和 基因 组 进行 细致 全 貌 的 分 析 
BA AY RE , TSC BR a Ag TR EI deep sequencing )。 

r3 38 gr dU Fr nf ELT BIMUJESE d PS E SCHEMA Si ix SAR ah Ge et Fe P| AY 
偏差 。 依 靠 后 期 强大 的 生物 信息 学 分 析 能 力 , 对 照 一 个 参 比 基因 组 ( reference genome ) 高 通 
量 测序 技术 可 以 非常 轻松 完成 基因 组 重 测序 ( resequencing ),2007 年 Van Orsouw 等 人 结合 改 
进 的 AFLP 技 术 和 454 测 序 技术 对 玉米 基因 组 进行 了 重 测 序 , 该 重 测序 实验 发 现 的 超过 75% 的 
SNP 位 点 能 够 用 SNPWave 技 术 验 证 ,提供 了 一 条 对 复杂 基因 组 特别 是 含有 高 度 重复 序列 的 
植物 基因 组 进行 多 态 性 分 析 的 技术 路 线 。2008 年 Hillier 对 线虫 CB4858 品 系 进行 Solexa 重 测 
序 ,寻找 线虫 基因 组 中 的 SNP 位 点 和 单位 点 的 缺失 或 扩 增 。 但 是 也 应 该 看 到 ,由 于 高 通 量 测 
序 读 取 长 度 的 限制 ,使 其 在 对 未 知 基因 组 进行 从 头 测 序 ( de novo sequencing ) 的 应 用 受到 限 
制 , 这 部 分 工作 仍然 需要 传统 测序 ( 读 取 长 度 达到 850 碱 基 ) 的 协助 。 但 是 这 并 不 影响 高 通 量 
测序 技术 在 全 基因 组 mRNA 表达 谱 , microRNA 表 达 谱 , ChIP-chip 以 及 DNA 甲 基 化 等 方面 的 
应 用 。 

2008 年 Mortazavi 等 人 对 小 鼠 的 大 脑 、 肝 脏 和 上 骨 髋 肌 进 行 了 RNA 深 度 测 序 ,这 项 工作 展示 
了 深度 测序 在 转录 组 研究 上 的 两 大 进展 ,表达 计数 和 序列 分 析 。 对 测 得 的 每 条 序列 进行 计 
数 获得 每 个 特定 转录 本 的 表达 量 , 是 一 种 数码 化 的 表达 谱 检 测 ,能 检测 到 丰 度 非常 低 的 转录 
本 。 分 析 测 得 的 序列 ,有 大 于 90% 的 数据 显示 落 在 已 知 的 外 显 子 中 ,而 那些 在 已 知 厅 列 之 外 
的 信息 通过 数据 分 析 展 示 的 是 从 未 被 报道 过 的 RNA 剪 切 形式 ,3” 端 非 翻译 区 ,变动 的 局 动 
子 区 域 以 及 潜在 的 小 RNA 前 体 , 发现 至 少 有 3500 个 基因 拥有 不 止 一 种 剪 切 形式 。 而 这 些 信 
息 无 论 使 用 芯片 技术 还 是 SAGE 文 库 测序 都 是 无 法 被 发 现 的 。 

高 通 量 测 序 另 一 个 被 广泛 应 用 的 领域 是 小 分 子 RNA 或 非 编 码 RNA( ncRNA ) G3. M 
序 方法 能 轻易 地 解决 芯片 技术 在 检测 小 分 子 时 遇 到 的 技术 难题 ( 短 序 列 ,高 度 同 源 ), 而且 小 
分 子 RNA 的 短 序列 正好 配合 了 高 通 量 测序 的 长 度 , 使 得 数据 “不 浪费 ” ,同时 测序 方法 还 能 在 
实验 中 发 现 新 的 小 分 子 RNA。 在 衣 汇 斑马 鱼 、 果 线虫 人 和 黑猩猩 中 都 已 经 成 功 地 找到 
了 新 的 小 分 子 RNA。 在 线虫 中 获得 了 40 万 个 序列 ,通过 分 析 发 现 了 18 个 新 的 小 RNA 分 于 和 
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一 类 全 新 的 小 分 子 RNA. 

在 DNA 一 和 集 日 质 相 互 作用 的 人 研究 上 , 粹 色 质 人 免疫 沉 省 一 深度 测 友 ( ChIP-seq ) 实验 也 展 
示 了 其 非常 大 的 潜力 。 染 色 质 免疫 沉 演 以 后 的 DNA 直 接 进行 测序 ,对 比 ref seq 可 以 直接 获得 
蛋白 与 DNA 结 合 的 位 点 信息 , 相 比 ChIP-chip, ChIP-seq 可 以 检测 更 小 的 结合 区 段 .未 知 的 结 
合 位 点 .结合 位 点 内 的 突变 情况 和 和 蛋白 亲 合 力 较 低 的 区 段 


一 、 新 一 代 测 序 法 和 常见 的 测序 仪 》》 


最 近 市 面 上 出 现 了 很 多 新 一 代 测 序 仪 产品 ,例如 45$4 基 因 组 测序 仪 _Ilumina 测 序 仪 、 
SOLiD 测 序 仪 、Polonator 测 序 仪 以 及 HeliScope 单 分 子 测 序 仪 。 所 有 这 些 新 型 测序 仪 都 使 用 了 
一 种 新 的 测序 策略 一 一 循环 芯片 测序 法 (cyclic-array sequencing ), 也 可 将 其 称 为 “新 一 代 测 
序 技术 或 者 第 二 代 测 序 撤 术 ”。 

所 谓 循环 必 片 测序 法 (图 6-2 ), 傈 言 之 就 是 对 布 满 DNA 样 品 的 心 片 重复 进行 基于 DNA 的 
聚合 酶 反应 (模板 变性 .引物 退火 杂交 及 延伸 ) 以 及 葡 光 序列 读 取 反应 。2005 年 ,有 两 篇 论文 
曾 对 这 种 方法 做 出 过 详细 介绍 。 与 传统 测序 法 相 比 ,循环 必 瞩 测序 法 具有 操作 更 向 多 . VH] 
更 低廉 的 优势 ,于 是 很 快 就 获得 了 广泛 的 应 用 ， 
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图 6-2 ”Sanger 测序 法 和 新 一 代 测 序 技 术 工 作 流 程 图 


PrE ”新 一 代 测 序数 据 分 析 249 


250 第 六 章 新 一 代 测序 数据 分 析 


CHAPTER 6 NEXT-GENERATION SEQUENCING DATA ANALYSIS 


在 开发 新 型 高 通 量 .高 并 行 运 行 方法 时 碰 到 的 一 个 关键 问题 是 ,如 何 将 反应 试剂 同时 加 
入 数量 如 此 之 多 的 各 个 反应 体系 中 ?在 焦 磷酸 测序 的 过 程 当 中 需要 反复 加 入 不 同 的 碱 基 以 
供 测 序 反 应 使 用 ,而 当时 的 自动 化 加 样 设备 无 法 有 效 地 做 到 对 这 么 多 的 反应 体系 同时 循环 
加 样 。 于 是 ,开发 一 种 全 新 的 高 密度 并 行 处 理 方法 这 一 重要 课题 又 再 一 次 摆 在 了 科研 人 员 
的 面前 。 这 一 次 ,我 们 找到 了 一 个 非常 简单 但 是 又 很 巧妙 地 方法 。 在 高 密度 的 反应 必 片 表 
面 使 用 层 流 (laminar flow ) 加 样 方式 ,反应 试剂 会 通过 扩散 作用 很 好 地 进入 每 一 个 反应 体系 ， 
而 且 也 可 以 用 层 流 的 方式 洗 去 多 余 的 反应 试剂 。 现 在 ,所 有 的 新 一 代 测 序 仪 都 采用 了 这 种 
层 流 加 样 方法 。 

为 了 将 每 个 单独 的 测序 反应 都 分 隔 开 来 ,一 开始 使 用 平板 ( 世 片 ), 不 过 在 平板 上 平均 每 
一 平方 厘米 的 面积 上 最 多 只 能 同时 进行 数 百 至 数 千 个 反应 。 但 我 们 希望 达到 的 是 在 每 平 
方 厘米 的 面积 上 同时 进行 100 万 个 测序 反应 ,这 样 才 能 令 测 序 仪 小 型 化 ,同时 节省 试剂 并 进 
行 快速 成 像 和 测序 。 为 了 实现 更 高 密度 的 测序 反应 ,我们 在 平板 上 制作 了 很 多 小 孔 ,将 每 
个 反应 体系 都 安置 在 这 些小 孔 中 ,这 些小 孔 都 足够 深 , 足 以 分 隔 每 个 反应 体系 。 虽 然 这 种 
方法 极 大 提高 了 测序 反应 的 密度 ,缩小 了 平板 的 面积 ,但 是 要 达到 高 通 量 的 要 求 还 是 需要 
60mm x 60mm X/IS Fr A ÍT. 

针对 图 像 采 集 问 题 使 用 了 商业 化 的 天 文学 照相 ( astrological grade camera ) $84 , TE FB, far 
耦合 装置 (CCD ) 的 表面 连接 上 光纤 束 ( fiber-optic bundle )。 这 些 光 纤 是 锥 形 排列 的 ,这 样 可 
以 将 大 范围 的 光 信号 都 传输 到 CCD 表 面 上 很 小 的 一 个 范围 。 采 取 下 面 两 个 步 又, 我们 就 可 
以 制 成 含有 高 密度 小 孔 的 必 片 : 先 将 光纤 束 连 接 到 类 似 于 载 玻 片 一 样 的 一 次 性 芯片 上 ,然后 
用 酸 蚀 刻 ( acid etching procedure ) 技术 在 玻 片 的 另 一 面 打 上 小 孔 。 这 种 酸 蚀 刻 技术 是 根据 
制作 生物 传 感 硕 的 技术 改进 而 来 的 。 





二 、 样 品 准备 >> 


要 想 实 现 高 通 量 基因 组 测序 ,只 对 测序 步骤 进行 优化 还 是 远 远 不 够 的 。 人 类 基因 组 计 
划 花 费 经 费 中 有 很 大 一 部 分 都 用 在 了 测序 样品 制备 阶段 。 当 时 即使 是 采用 最 简单 的 制备 
样品 方法 也 需要 将 目标 片段 克隆 到 细菌 中 , 挑 克隆 ,再 转 到 96 孔 板 , 然 后 进行 克隆 扩 增 , 提 
取 质 粒 , 制 备 测 序 模板 。 这 种 工作 流程 既 耗 时 又 耗 钱 。 如 果 采 用 新 型 的 文库 制备 方法 就 可 
以 极 大 地 节省 这 部 分 开支 ,这 种 新 型 的 方法 是 先 分离 基 因 组 DNA ,随机 切割 成 小 片段 分 子 ， 
然后 通过 有 限 黎 释 ( limiting dilution ) 和 聚合 酶 扩 增 反应 , 即 体 外 元 隆 方式 ( clones without 
bacterial ) 制备 模 板 片段 。 这 样 ,从 模板 制备 到 最 后 的 测序 反应 整个 过 程 都 能 够 在 体外 完成 。 

文库 制备 包括 以 下 几 个 步骤 ,首先 随机 切割 样品 基因 组 ,获得 大 量 DNA 片 段 ,然后 接 上 
接头 进行 扩 增 反应 。 新 一 代 测 序 技术 的 样品 制备 程序 和 Craig Venter 等 人 的 马 枪 法 样品 制备 
程序 有 着 本 质 的 差别 。 通 过 乳 麻 PCR( emulsion PCR ) 或 桥 式 PCR( bridge PCR ) 等 方法 对 文 
库 进 行 扩 增 ,获得 测序 模板 ,而 没有 鸟 枪法 中 的 细菌 克隆 繁殖 步骤 。 去 掉 了 细菌 繁殖 步 观 
极 大 地 提高 了 整个 测序 工作 的 速度 和 效率 ,同时 避免 了 由 于 细菌 繁殖 导致 的 序列 丢失 的 可 
能 性 。 末 端 配对 文库 制备 方法 的 建立 同样 对 复杂 基因 组 从 头 测 序 .对 重复 片段 测序 以 及 对 
基因 组 结构 (复制 . 重 排 ) 展 开 系 统 研究 三 种 能 力 。 这 种 末端 配对 文库 的 制备 方法 是 受到 了 
Bender 科 人 研 小 组 对 果 蝇 ( Drosophila ) 制备 跨 步 文库 方法 的 启发 而 发 展 得 来 的 。 


SAR ”新 一 代 测 序数 据 分 析 251 一 


CHAPTER 6 NEXT-GENERATION SEQUENCING DATAANALYSIS 


emPCR 被 454 测 序 仪 和 SOLiD 测 序 仪 等 采用 (图 6-3 )。 这 种 方法 是 将 制备 的 DNA 文 库 与 
水 油 包 被 的 直径 大 约 28 hm 的 人 磁 珠 在 一 起 孵育 、 退 火 ,由 于 人 磁 珠 表面 含有 与 接头 互补 的 守 肾 
核 苷 酸 序列 ,因此 ssDNA 会 特异 地 连接 到 磁 珠 上 。 同 时 孵育 体系 中 含有 PCR 反 应 试剂 ,因此 
可 以 保证 每 一 个 与 磁 珠 结合 的 小 片段 都 会 在 各 自 的 旷 育 体系 内 独立 扩 增 , 扩 增 产物 仍 可 以 
结合 到 磁 珠 上 。 反 应 完成 后 ,破坏 眩 育 体系 并 富 集 带 有 DNA 的 人 磁 珠 。 经 过 扩 增 反应 ,每 一 个 
小 片段 都 将 被 扩 增 大 约 100 万 倍 ,从 而 达到 下 一 步 测 序 反应 所 需 的 模板 量 。 

在 桥 式 PCR 反 应 中 (图 6-3), 正 向 引物 和 反 向 引物 都 被 通过 一 个 柔性 接头 (flexible 
linker ) 固定 在 固 相 载体 ( solid substrate) Eo 经 过 PCR 反 应 ,所 有 的 模板 扩 增 产物 就 都 被 固 
定 到 了 芯片 上 固定 的 位 置 。 值 得 注意 的 是 , Ilumina 测 序 仪 使 用 的 桥 式 PCR 与 传统 的 桥 式 
PCR 有 所 不 同 , 它 会 交 符 使 用 Bst 聚 合 酶 进行 延伸 反应 以 及 使 用 甲 酰胺 (formamide ) 进行 变性 
反应 。 这 样 ,经 过 桥 式 PCR 打 增 之 后 ,也 会 在 固 相 载 体 上 形成 一 个 个 的 模板 “克隆 "”。 一 块 心 
片 的 8 条 独立 “ 泳 道 ”上 每 一 条 泳 道 都 可 以 容纳 数 百 万 的 模板 “克隆 ” ,这 样 一 次 就 可 以 同时 
对 8 个 不 同 的 文库 进行 测序 。 
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图 6-3 emPCR 和 bridgePCR 示 意图 
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三 、 合 成 测序 法 》》 


摩尔 定律 不 仅 为 计算 机 CPU 的 迅猛 发 展 提供 了 源 动 力 , 也 给 测序 平台 提高 通 量 和 小 型 
化 币 来 了 希望 。 很 明显 ,常规 的 人 类 基因 测序 项 目 会 对 我 们 处 理 测序 技术 的 能 力 提 出 更 高 
要 求 , 这 与 我 们 对 计算 机 处 理 能 力 的 要 求 是 一 样 的 。 不 过 ,只 有 将 计算 机 的 电子 管 换 成 品 体 
管 , 才 为 后 来 集成 电路 技术 的 发 展 提供 了 可 能 ,这 正 是 计算 机 产业 发 展 的 关键 所 在 。 而 希望 
对 传统 的 毛细 管 电泳 技术 进行 改 民 ,提高 它 的 速度 和 处 理 规模 ,正如 只 用 电子 管 直 接 制 作 集 
成 电路 一 样 不 可 能 。 因 此 ,如 果 将 各 种 测序 技术 比 作 一 个 个 品 体 管 ,将 一 系列 测序 步骤 整合 
起 来 比 作 集成 电路 ,那么 也 就 可 以 用 摩尔 定律 来 预测 DNA 测 序 撤 术 的 发 展 速度 了 。 

合成 测序 法 概念 虽然 在 提出 的 时 候 还 不 算 成 功 ,但 它 的 出 现 为 测序 仪 小 型 化 页 定 了 
基础 。 基 于 合成 测序 法 出 现 了 两 种 策略 : 一 种 是 循环 可 切除 终止 测序 法 (eyelic reversible 
termination technology ), 即 依次 逐个 添加 葡 光 标记 的 碱 基 , 继 而 检测 灾 光 信号 ,切除 严 光 基 
团 , 如 此 往复 ; 另 一 种 策略 是 售 磷酸 测序 法 ( sequenced by detecting pyrophosphate release ). 
454 测 序 仪 采 用 的 是 小 型 化 焦 砍 酸 测序 反应 , 1I FS o EE A A BPI J st Por RAB AE E [8 
态 必 片上 完成 的 。 

实际 上 , 早 在 20 世 纪 90 年 代 中 期 , 焦 磷 酸 测序 技术 就 已 经 被 科研 界 用 来 进行 基因 分 型 
工作 了 ,但 那 时 的 焦 磷酸 测序 技术 还 不 能 够 满足 标准 的 测序 实验 要 求 , 因 为 它 的 测序 长 度 太 
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只 能 简单 地 对 已 知 位 点 的 碱 基 进 行 检 测 ,而 且 从 头 测序 要 求 的 测序 长 度 也 是 焦 磷酸 测序 法 
无 法 达到 的 。 不 过 ,由 于 焦 磷酸 测序 的 原理 是 通过 检测 碱 基 挨 和 人 时 发 出 的 光 来 进行 测序 的 ， 
所 以 它 并 不 需要 类 似 于 电泳 之 类 的 物理 分 离 过 程 来 对 碱 基 进 行 区 分 。 这 也 就 是 说 焦 磷酸 测 
序 仪 可 以 “缩小 ( 减 ” 到 只 需要 检测 光线 就 够 了 ,而 不 需要 像 传统 的 测序 仪 还 需要 电泳 设 备 ， 
而 这 正 是 限制 传统 电泳 仪 小 型 化 的 关键 所 在 。 发 光 检 测 方法 还 能 够 进行 多 路 平行 操作 ,但 
是 直到 454 测 序 仪 出 现 之 前 ,还 没有 人 这 样 做 过 ,以 前 都 是 依次 进行 检测 的 。 和 品 体 管 早期 
的 遭遇 一 样 (当时 人 们 也 怀疑 晶体 管 替 代 不 了 电子 管 ), 人 们 同时 对 高 密度 的 .用 于 并 行 焦 磷 
酸 测序 的 反应 也 充满 了 疑问 。 不 过 , 当 我 们 不 在 溶液 中 进行 测序 反应 ,而 是 将 测序 模板 、 所 
有 的 试剂 ( 酶 ) 都 固定 在 平板 上 制 成 必 片 之 后 ,就 获得 了 小 型 化 的 ,能 进行 多 路 并 行 处 理 的 测 
序 仪 ,这 就 与 晶体 管 被 小 型 化 并 整合 成 集成 电路 的 过 程 一 样 。 此 外 ,借助 微量 滴定 板 上 一 个 
个 的 小 孔 所 达到 的 将 不 同 测序 反应 进行 分 隅 这 一 目的 ,也 能 通过 在 单个 固 相 文 持 物 上 进行 
严密 包裹 (隔离 ) 的 反应 来 实现 。 在 这 些 各 上 自 隅 绝 的 反应 体系 中 , 链 聚 合 反应 速度 和 发 光速 
度 都 能 通过 对 反应 试剂 和 产物 弥散 状况 进行 严密 的 控制 来 进行 精密 的 调整 (图 6-4 ). 
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四 、 第 三 代 测 序 技术 >>. 


近期 出 现 的 Heliscope 单 分 子 测序 仪 、 SMRT 技 术 和 Oxford Nanopore Technologies 公 司 正在 
人 研究 的 纳米 孔 单 分 子 技术 ,被 认为 是 第 三 代 测序 技术 。 与 前 两 代 技 术 相 比 ,他 们 最 大 的 特点 
是 单 分 子 测序 。 其 中 , Heliscope 技 术 和 SMRT 技 术 利用 荧光 信号 进行 测序 ,而 纳米 了 筷 单 分 子 
测序 技术 利用 不 同 碱 基 产 生 的 电信 号 进行 测序 。 

Helicos 公 司 的 Heliscope 单 分 子 测序 仪 基于 边 合成 边 测序 的 思想 ,将 待 测序 列 随机 打 渐 
成 小 片段 并 在 3 末端 加 上 Poly( A ), 用 末端 转移 酶 在 接头 末端 加 上 Cy3 谈 光标 记 。 用 小 片段 
5j e IH A SEAR PolyCT ) 的 平板 杂交 。 然 后 ,加 入 DNA 吧 合 酶 和 Cy5 灾 光标 记 的 dNTP 进 行 
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DNA 合 成 反应 ,每 一 轮 反 应 加 一 种 dNTP。 将 未 参与 合成 的 dNTP 和 DNA 聚 合 酶 洗 脱 ,检测 
上 一 步 记录 的 杂交 位 置 上 是 否 有 奖 光 信号 ,如 果 有 则 说 明 该 位 置 上 结合 了 所 加 入 的 这 种 
dNTP。 用 化 学 试剂 去 挥 灾 光标 记 , 以 便 进 行 下 一 轮 反 应 。 经 过 不 断 地 重复 合成 、 洗 脱 成像、 
滩 炎 过 程 完成 测序 。Heliscope 的 读 取 长 度 约 为 30~35 bp, 每 个 循环 的 数据 产 出 量 为 21~28 
Gb。 值 得 注意 的 是 ,在 测序 完成 前 ,各 小 片段 的 测序 进度 不 同 。 此 外 ,可 以 通过 二 次 测序 来 
提高 Heliscope 的 准确 度 , 即 在 第 一 次 测序 完成 后 ,通过 变性 和 洗 脱 移 除 3' 末 端 带 有 Poly( A ) 
的 模板 链 ,而 第 一 次 合成 的 链 由 于 $ 末端 上 有 固定 在 平板 上 的 春 聚 Poly(T ), 因 而 不 会 被 洗 脱 
掉 。 第 二 次 测序 以 第 一 次 合成 的 链 为 模板 ,对 其 反 义 链 进行 测序 。 

Pacific Biosciences 公 司 的 SMRT 技 术 基 于 边 合 成 边 测序 的 思想 (图 6-5 ), 以 SMRT 改 片 为 
测序 载体 进行 测序 反应 。SMRT 必 片 是 一 种 带 有 很 多 ZMW( zero-mode waveguides ) 孔 的 厚 
度 为 100 nm 的 金属 片 。 将 DNA 聚 合 酶 . 待 测序 列 和 不 同 严 光标 记 的 dNTP 放 和 人 ZMW 孔 的 底 
部 ,进行 合成 反应 。 与 其 他 技术 不 同 的 是 , 严 光 标记 的 位 置 是 磷酸 基 团 而 不 是 碱 其。 当 一 
个 dNTP 被 添加 到 合成 链 上 的 同时 , 它 会 进入 ZMW 孔 的 荧光 信号 检测 区 并 在 激光 束 的 激发 
下 发 出 荧光 ,根据 荧光 的 种 类 就 可 以 判定 d4NTP 的 种 类 。 此 外 由 于 dNTP 在 荧光 信号 检测 区 
停留 的 时 间 ( 毫 秒 级 ) 与 它 进 入 和 离开 的 时 间 ( 微 秒 级 ) 相 比 会 很 长 ,所 以 信号 强度 会 很 大 。 
其 他 未 参与 合成 的 dNTP 由 于 没 进入 灾 光 型 号 检测 区 而 不 会 发 出 荧光 。 在 下 一 个 dNTP 被 添 
加 到 合成 链 之 前 ,这 个 dNTP 的 磷酸 基 团 会 被 氟 聚 合 物 (fluoropolymer ) 切割 并 释放 , KICA 
子 离 开 灾 光 信 号 检测 区 。SMRT 技 术 的 测序 速度 很 快 ,利用 这 种 技术 测序 速度 可 以 达到 每 
秒 10 个 dNTP。 
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图 6-5 SMRT 测 序 技术 流程 
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Oxford Nanopore Technologies 公 司 正 在 研究 的 纳米 孔 单 分 子 技术 是 一 种 基于 电信 和 号 测 
序 的 技术 。 他 们 设计 了 一 种 以 a -溶血 素 为 材料 制作 的 纳米 孔 ,在 孔 内 共 价 结合 有 分 子 接 
头 环 糊 精 。 用 核酸 外 切 酶 切割 ssDNA 时 ,被 切 下 来 的 单个 碱 基 会 落 入 纳米 孔 , 并 和 纳米 孔 内 
的 环 糊 精 相互 作用 ,短暂 地 影响 流 过 纳米 孔 的 电流 强度 ,这 种 电流 强度 的 变化 幅度 就 成 为 每 
种 碱 基 的 特征 。 碱 基 在 纳米 孔 内 的 平均 停留 时 间 是 毫秒 级 的 , 它 的 解 离 速率 常数 与 电压 有 
关 ,180 mV 的 电压 就 能 够 保证 在 电信 号 记录 后 将 碱 基 从 纳米 孔 中 清除 。 纳 米 孔 单 分 子 技术 
的 万 一 大 特点 是 能 够 接 读 取 甲 基 化 的 胞 旷 喧 ,而 不 像 传统 方法 那样 必须 要 用 重 亚 硫 酸 盐 
( bisulfite ) 处 理 , 这 对 于 在 基因 组 水 平 研究 表 观 遗传 相关 现象 提供 了 巨大 的 帮助 。 纳 米 孔 单 
分 子 技术 的 准确 率 能 达到 99.8% ,而且 一 旦 发 现 替 换 错 误 也 能 较 容易 地 更 改 , 因 为 4 种 碱 基 中 
的 2 种 与 男 外 2 种 的 电信 号 差异 很 明显 ,因此 只 需 在 与 检测 到 的 信号 相符 的 2 种 碱 基 中 做 出 判 
其 ,就 可 修正 错误 。 另 外 由 于 每 次 只 测定 一 个 核 苷 酸 ,因此 该 方法 可 以 很 容易 地 解决 同 聚 物 
长 度 的 测量 问题 。 该 技术 尚 处 于 研发 阶段 ,目前 面临 的 两 大 问题 是 寻找 合适 的 外 切 酶 载体 
以 及 承载 纳米 筷 平 台 的 材料 。 
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TE, WRA DA A ABIZS 8] 853730X LE A Fa, vk D Fe SHE FETA PT, BES 28 AE BE SE 
成 六 千 万 碱 基 的 测序 量 。 随 着 测序 技术 日 新 月 异 的 发 展 ,这 种 情况 已 经 成 为 历史 。 在 2005 
年 开始 进行 新 一 代 测 序 技术 开发 时 , Roche 公 司 和 454 公 司 联 合 开 发 的 焦 磷酸 测序 仪 的 分 
析 速 度 就 已 经 达到 了 上 述 提 及 的 ABI 仪 絮 速 度 的 50 们 之 上 。 也 就 是 从 那 时 起 , 因 基 因数 据 
过 多 而 产生 的 问题 凸显 了 出 来 ,而 且 这 个 问题 随 着 其 他 制造 商 开 发 出 更 多 更 快 的 测序 仪 而 


愈加 严重 。 举 个 例子 , ABI 的 新 一 代 测 序 平 台 SOLiD 单 次 运行 , 便 可 以 分 析 6Cb 的 碱 基 序 列 ; 


而 Roche/454 测 序 仪 单 次 运行 可 以 将 上 述 结 采 转 换 成 12~15 个 千 兆 字 节 (gigabytes ) 的 数据 
信息 ; Illumina Genome Analyzer( GA I ) il Ae FA 5 DUE BG 7) At a 1T AY JH] HR. , TE 8]102E SE 15 
(terabytes ) 的 信息 。 尽 管 可 以 为 用 户 提 供 高 达 11.25TB 的 存储 量 ,但 对 于 多 数 实 验 室 所 具有 
的 信息 管理 系统 来 说 ,规模 如 此 庞大 的 数据 信息 ,就 好 像 是 迎面 而 来 的 洪水 ,让 人 感到 难以 
控制 。 

海量 信息 所 市 来 的 一 个 问题 是 ,用 户 无 法 将 初始 图 像 数 据 进行 分 类 存档 ,而 必须 利用 软 
件 对 数据 进行 读 取 ,然后 才能 对 数据 进行 保存 。 对 于 大 多 数 人 研究 人 员 来 说 , 像 这 样 在 每 次 实 
验 后 对 原始 数据 进行 处 理 的 方式 既 繁 琐 又 不 经 济 。 

除数 据 处 理 问题 之 外 ,研究 人 员 还 需要 拥有 一 个 足够 强大 的 计算 机 平台 ,以 便 将 来 目 多 
个 测序 技术 的 短小 基因 片段 进行 组 合 ,形成 基因 组 外 显 子 。 目 前 问题 在 于 ,测序 仪 生产 商 仅 
仅 提 供用 于 某 些 特定 基因 信息 分 析 的 软件 ,如 部 标 重 测序 .基因 表达 分 析 .染色 质 免 疫 沉 诈 
反应 或 基因 组 从 头 测序 等 ,而 并 未 提供 任何 其 他 类 型 的 下 游 生 物 学 信息 分 析 软 件 ix SCR E 
物 信息 学 提出 了 新 的 问题 


一 、 新 一 代 测序 数据 格式 与 质量 编码 >> 


目前 ,序列 质量 评分 问题 是 受到 广泛 关注 的 一 个 问题 。 造 成 这 种 现象 的 原因 主要 是 因 
为 所 有 新 一 代 测 序 仪 的 测序 质量 都 不 高 ,而 且 不 同 的 序列 情况 都 有 各 目的 误差 率 。 随 看 新 
一 代 测 序 仪 产品 的 不 断 成 熟 ,在 临床 及 科 人 研 工 作 中 的 应 用 范围 越 来 越 广 , 它 们 的 测序 质量 也 
就 变 得 重要 起 来 ,而 且 我 们 也 需要 对 各 个 测序 仪 的 测序 质量 有 一 个 清晰 的 可靠 的 评价 标 
准 。 对 于 测序 仪 的 应 用 范围 进行 标准 化 的 质量 评价 也 是 有 好 处 的 。 比 如 评价 从 头 测序 的 质 
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量 \、 评 价 测序 结果 与 参考 序列 的 相似 度 、 评 价 测序 仪 发 现 突变 以 及 多 态 性 的 能 力 以 及 对 测序 
仪 在 进行 大 规模 测序 项 目 研 究 时 质量 的 可 徘 性 进行 评价 等 。 








二 、 新 一 代 测 序数 据 库 与 数据 格式 转化 》》 


目前 对 于 如 何 组 织 .存档 以 及 发 布 这 些 新 一 代 测 序 仪 产 生 的 短片 段 序列 结 末 正 处 于 热 
烈 的 讨论 之 中 ,人 们 希望 制定 一 个 类 似 蕊 片 实验 时 制定 的 MIAME ( minimum information about 
a microarray experiment ) 规则 。 这 些 早 期 的 工作 经 验 在 如 何 处 理 包 括 生物 学 注释 信息 Mt P 
原始 数据 .关键 实验 细节 (比如 样品 特征 .样品 处 理 方法 ) 在 内 的 元 数据 ,以 及 如 何 处 理 .出 版 
发 行 这 些 数 据 等 方面 给 了 我 们 良好 的 建议 。 如 何 对 这 些 新 一 代 测 序 仪 的 测序 结果 数据 进行 
公共 管理 也 是 一 个 需要 探讨 的 问题 。NCBI 最 近 专 门 为 短片 段 序列 建立 了 数据 库 Short Read 
Archive( SRA ), 并 同步 制定 数据 提交 格式 。SRA 数 据 库 不 仅 会 收集 包括 实验 注释 信息 .实验 
参数 等 信息 的 数据 ,而 且 还 会 被 整合 到 Entrez 查 询 系统 当中 。 有 目前 的 工作 主要 包括 开发 线 上 
搜索 工具 数据 图 形 化 工具 。 


三 、 测 序 短片 段 在 参考 基因 组 中 的 定位 >> 


新 一 代 测 序 仪 可 以 用 极 快 的 速度 和 极其 低廉 的 价格 获得 大 量 的 序列 ,这 已 经 改变 了 
基因 组 学 的 面貌 。 它 们 可 用 于 对 RNA 进 行 测序 , 即 先 通过 反 转 录 将 其 变 成 cDNA ,然后 再 对 
cDNA 进行 测序 ,这 样 就 能 发 现 一 些 未 知 的 基因 ,并 据 此 发 现 新 的 RNA 剪 切 方 式 。 也 可 以 将 
测序 技术 应 用 于 ChIP , 弄 清 楚 与 重 白 质 共 沉 诞 的 DNA 片 段 的 序列 。 这 种 方法 能 用 于 研究 转 
录 因 子 与 DNA 调 控 元 件 之 间 的 相互 作用 。 此 外 ,对 肿瘤 细胞 全 基因 组 测序 也 能 发 现 一 些 新 
的 致癌 突变 。 随 着 新 一 代 测 序 的 完成 ,人 们 获得 了 大 量 的 短片 段 序 列 , 如 何 对 这 些 短片 段 作 
图 就 成 了 一 个 大 问题 , 即 被 称 为 “阅读 片段 作 图 (“read mapping”》 的 问题 。 


@[L26_1184:6:1:881:704/1 
TTTATTTTGATGCACGCACGAGACGGTATCTAGACT 
+ 

>>>>>>>>>>><>>>>>>>>>>>>>>>>>>><<><> 
@[L26_1184:6:1:883:595/1 
TGGTGATTAGTCAAAGAGACCAAATCCCATATCCTC 
ae 


D> >> >>> >>>>>>><>>>>>>>>>>>>>>><>>>>< 


图 6-6 FASTQ# AX 7% 45] 


为 了 便于 测序 数据 的 发 布 和 共享 ,高 通 量 测序 数据 以 FASTO fé Xo ic ae Pr BS gai FETE 
段 和 质量 分 数 ,如 图 6-6 所 示 , FASTQ 格 式 以 测序 读 段 为 单位 存储 ,每 条 读 段 占 4 行 ,第 一 行 
是 这 个 read 的 编号 ,第 二 行 是 read 的 具体 编码 ,第 三 行 是 一 个 标识 符 ,第 四 行 是 read 中 每 一 个 
碱 基 对 应 的 质量 谈 数 (这 是 由 于 每 个 碱 基 都 是 由 测序 仪 测 出 这 些 质量 度数 是 由 ASCII 编 码 )。 
很 多 公司 开发 的 测序 仪 在 测序 时 产生 的 都 是 长 约 25~100bp 左 右 的 小 片段 序列 , 即 
“read”。 这 些小 片段 都 是 待 测 样品 大 片段 的 某 一 部 分 。 与 对 未 知 的 全 基因 组 进行 测序 , 即 与 
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将 所 有 小 片段 组 装 成 一 个 完整 基因 组 的 工作 相 比 ,大 们 现在 大 部 分 的 工作 实际 都 可 以 参照 
“参考 基因 组 ”进行 。 因 此 ,要 了 解 小 片段 “read” 的 作用 ,首先 要 知道 它们 在 参考 基因 组 中 
的 确切 位 置 , 而 对 这 些小 片段 进行 定位 的 过 程 就 称 作 “ 作 图 ”( mapping ), 或 “定位 ”( aligning ) 
到 参考 基因 组 中 ,在 作 图 中 ,有 一 个 问题 需要 注意 , 那 就 是 进行 定位 时 不 能 出 现 大 的 “ 间 际 ”。 
而 在 对 RNA 进 行 测序 时 ,因为 存在 内 含 子 的 缘故 ,这 一 点 就 显得 尤为 突出 。 因 此 ,对 RNA 进 
行 测序 时 就 允许 有 较 大 的 间隙 出 现 。 此 外 ,如 果 某 个 短小 片段 属于 参考 基因 组 里 的 一 个 重 
复元 件 ,那么 就 应 该 弄 清楚 它 来 自重 复元 件 中 的 哪 一 个 拷贝 。 但 这 是 不 太 可 能 实现 的 ,所 以 
分 析 程 序 一 般 都 只 能 给 出 该 短片 段 可 能 属于 参考 基因 组 中 哪 几 个 位 点 。 同 时 ,由 于 测序 错 
误 或 者 检测 样品 间 以 及 检测 样品 和 参考 基因 组 间 出 现 变异 等 情况 ,使 上 述 问题 变 得 更 加 严 
重 。 同样 ,在 RNA 剪 切 体 作 图 中 也 存在 上 述 问 题 ,而且 由 于 内 含 子 的 问题 使 得 情况 更 为 复杂 。 

当然 ,使 用 传统 的 BLAST 或 BLAT 软 件 分 析 ChIP-seq 或 RNA-seq 测 序 结果 ,可 能 会 花 上 几 
百 甚至 几 千 个 小 时 ,现在 有 了 新 的 分 析 软 件 。 

众多 测序 仪 每 一 轮 测序 都 能 获得 百 万 计 的 短片 段 序列 , 不 过 要 对 一 个 基因 组 进行 完 
全 测序 则 需要 进行 好 几 轮 检测 ,这 也 就 意味 着 要 想 获 得 一 份 完整 的 全 基因 组 图 谱 必须 对 数 
百 万 甚至 是 数 十 亿 的 短小 片段 进行 作 图 .定位 和 拼接 。 比 如 ,最 近 做 出 的 癌症 基因 组 序列 
就 是 通过 132 轮 测序 ,对 80 亿 条 短小 片段 进行 作 图 后 得 到 的 结果 。 使 用 BLAST 或 BLAT 比 对 
法 ,借助 大 型 的 超级 计算 机 需要 几 天 就 能 获得 这 个 癌症 的 基因 组 序列 结果 ,但 这 并 非 人 人 
都 能 享有 有。 为 了 能 让 更 多 的 人 用 更 廉价 的 计算 机 也 能 进行 类 似 的 作 图 分 析 , 人 们 开发 了 一 
套 新 的 比 对 定位 程序 ,使 用 这 种 新 程序 即使 在 普通 的 台式 机 上 也 能 对 数 亿 计 的 短小 片段 进 
行 作 图 分 析 。 测 序 仪器 生产 厂商 也 会 提供 一 些 专 门 的 作 图 软件 ,例如 , Illumina 公 司 开 发 的 
ELAND 程 序 等 。 研 究 人 员 也 开发 了 一 些 有 针对 性 的 第 三 方 软件 ,这 些 软 件 中 很 大 一 部 分 都 
是 开放 源 代 码 的 免费 程序 。 这 些 软件 主要 都 是 建立 在 这 样 一 种 算法 之 上 , 即 充分 利用 短小 
DNA 序 列 的 特点 来 作 图 ,而 不 需要 依靠 计算 机 强大 的 处 理 能 力 .内存 容 量 等 条 件 。 








四 、 短 片段 作 图 软件 >> 


Maq 和 Bowtie 都 属于 短片 段 作 图 程序 (图 6-7 )。 它 们 使 用 的 是 一 种 称 作 “建立 索引 
(indexing )" 的 策略 。 同 时 ,人 们 也 对 大 量 的 DNA 序 列 建 立 了 一 份 索引 ,借助 这 份 索引 就 能 快 
速 地 找到 其 中 的 短 DNA 户 段 了 上。Maq 软 件 是 基于 一 种 下 接 的 但 是 很 有 效 的 策略 一 一 空位 种 
子 片 段 索 引 法 (spaced seed indexing )。 它 将 一 个 短片 段 ( read ) 分 成 了 4 条 长 度 相 等 的 更 短 的 
片段 一 一 种 子 片段 ( seed )。 如 果 整 段 短小 片段 (read ) 可 以 与 参考 基因 组 序列 完全 配对 , 那 
么 很 显然 所 有 的 种 子 片 段 ( seed ) 也 理 所 应 当地 应 该 与 参考 基因 组 序列 完全 配对 。 但 如 果 其 
中 有 一 处 错 配 ,例如 SNP ,那么 肯定 有 一 条 种 子 片段 无 法 与 参考 基因 组 序列 完全 匹配 。 以 此 
类 推 ,如 果 出 现 了 两 处 错 配 就 会 导致 一 条 或 两 条 种 子 片 段 无 法 与 参考 基因 组 序列 完全 匹配 。 
因此 ,对 所 有 种 子 片 段 两 两 组 合 后 的 片段 (共有 6 种 组 合 方式 ) 进 行 比 对 ,就 有 可 能 找 出 该 短 
小 片段 在 基因 组 中 最 有 可 能 的 位 点 。Maq 软 件 采用 的 这 种 “空位 种 子 片段 索引 法 ”( spaced 
seed indexing ) 作 图 时 的 效率 非常 高 。 

Bowtie 软 件 采用 的 则 是 另 一 种 完全 不 同 的 策略 ,该 策略 借鉴 了 Burrows- Wheeler 转 换 
(Burrows-Wheeler transform ) 这 种 数据 压缩 算法 技术 ,将 完整 的 人 类 基因 组 序列 索引 压缩 
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b 
À 空位 种 子 片段 索引 法 转换 法 
参考 基因 组 - 参考 基因 组 
(长 度 大 于 3GB ) (长 度 大 于 3CB ) 短 测序 片段 
BSA =e ACTCCCGTACTCTAAT 参考 基因 组 1 epee CTCCCCTACTCTAAT 
参考 基因 组 2 mum 参考 基因 组 2 zz 
参考 基因 组 3 SEE 参考 基因 组 3 三 == 


参考 基因 组 4 一 一 一 一 参考 基因 组 4 ——— 


构建 种 子 片段 — Ü( 











| 两 两 组 合 
的 六 种 组 








Burrows- Wheeler 

转换 并 构建 索引 | 
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( 约 2GB 大 小 ) gp 
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| L1] T 
种 子 片段 " > AT 
搜寻 短片 段 
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L 合 方式 
为 种 子 片段 发 现 短片 段 ， Fs 
构建 索引 确定 它 在 参考 R 





x pipes Hv 


种 子 片 段 索 引 ( 数 +GB ) 





在 索引 中 寻找 每 一 对 
配对 的 种 子 序列 

发 现 种 子 序 列 , 确 定 它 在 
参考 基因 组 中 的 位 置 









Eeee” KOTLE, 将 结果 对 应 到 基因 
组 当中 的 确切 位 置 
IIR 

返回 软件 分 析 结果 给 用 户 


图 6-7 两 种 短片 段 定位 方法 


到 不 到 2CB 大 小 (这 是 当前 主流 台式 机 甚至 是 笔记 本 电脑 都 能 达到 的 水 平 ), 而 空位 种 子 片 
段 索引 法 至 少 需 要 $0GB。Bowtie 每 次 都 只 把 一 段 短 片段 序列 中 的 一 个 碱 基 与 经 Burrows- 
Wheeler 转 换 压 缩 过 的 参考 基因 组 序列 进行 比 对 。 经 过 这 种 连续 的 比 对 ,最 终 也 能 找 出 这 段 
短片 段 在 参考 基因 组 中 的 定位 。 如 果 Bowtie 软 件 发 现 短片 段 中 的 某 个 碱 基 在 参考 基因 组 中 
没有 很 好 地 配对 ,那么 软件 就 会 退回 到 上 一 个 碱 基 重 新 进行 比 对 。 实 际 上 ,Burrows-Wheeler 
转换 使 得 Bowtie 软 件 通 过 碱 基 逐个 比 对 ,直至 完成 全 长 短 序列 比 对 的 方法 解决 了 短 序列 作 图 
的 问题 。 从 本 质 上 来 说 , Bowtie 软 件 使 用 的 算法 要 比 Maq 采 用 的 复杂 得 多 ,但 Bowtie 软 件 却 比 
Maq 软 件 分 析 的 速度 快 30 倍 。 

Bowtie 软 件 和 Maq 软 件 的 默认 模式 中 至 多 都 只 会 允许 两 个 错 配 位 点 ,不 过 有 时 有 些 用 户 
需要 人 允许 更 多 的 错 配 位 点 存在 。 还 有 一 些 测序 项 目 , 例 如 细菌 或 真菌 基因 组 测序 项 目 等 获 
得 的 片段 序列 与 目前 已 经 测 得 的 类 似 物 种 全 基因 组 序列 之 间 存 在 着 较 大 的 差异 。 再 加 之 随 
着 新 测序 仪 的 不 断 涌现 ,测序 结果 的 质量 也 在 不 断 提高 ,但 这 些 测 序 结 果 却 极 易 受到 各 种 因 
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素 的 影响 ,例如 样品 文库 的 准备 测序 操作 步骤 、 甚 至 是 放置 测序 仪 磊 实验 室 的 温度 等 。 鉴 
于 此 , 面 对 上 述 这 些 新 出 现 的 “问题 ,人 们 也 应 该 采取 相应 的 措施 ,调整 Maq 软 件 和 Bowtie 软 
件 的 各 种 参数 使 之 适应 这 些 新 情况 。 

Bowtie 软 件 包 中 包括 预 置 的 大 肠 埃 希 菌 基因 组 索引 和 部 分 大 肠 埃 希 菌 短片 段 序列 。 要 
使 用 该 软件 分 析 数 据 只 需 输 入 命令 就 会 生成 一 个 表格 式 的 报告 ,给 出 每 一 个 匹配 短 序 列 的 
编号 在 参考 基因 组 中 的 位 置 以 及 发 生 错 配 的 位 点 个 数 和 具体 位 置 。 

有 了 序列 定位 的 软件 , 接 下 来 就 可 以 了 解 这 些 短片 段 具体 在 参考 基因 组 中 的 什么 位 置 
了 ,同时 也 可 知道 SNP 都 位 于 基因 组 中 的 什么 地 方 。SAM 软 件 包 能 满足 这 些 要 求 。SAM 软 件 
包 ( http: //samtools.sourceforge.net ) 包括 一 体 化 的 碱 基调 用 和 浏览 磊 ( base caller and viewer ), 
它 能 使 用 Maq 和 Bowtie 两 种 分 析 软 件 的 结果 。 








五 .基因 表达 水 平 估计 >>. 


为 了 保持 对 不 同 基因 和 不 同 实验 间 估计 的 基因 表达 值 的 可 比 性 ,人 们 提出 了 RPM 和 
RPKM 的 概念 。RPM( reads per million reads ) 即 每 百 万 读 段 中 来 自 于 某 基 因 的 读 段 数 , 考 虑 
了 测序 深度 对 读 段 计数 的 影响 ,RPKM( reads per kilo bases per million reads ) 是 每 百 万 读 段 
中 来 自 于 某 基因 每 千 碱 基 长 度 的 读 段 数 ,公式 表示 为 : 

i 基因 区 域 read 数 
”基因 长 度 x 测序 深度 ^ 

男 外 ,对 于 采用 末端 配对 测序 法 ( paired-end sequencing ) 技术 获得 的 数据 , cufflinks 

软件 等 也 采取 了 其 他 标准 ,如 FPKM( fragments per kilobase of exon model per million mapped 


fragments ); 


10° (4336-1 ) 


ATES MEBRH >> 


要 将 RNA 的 反 转 录 片 段 cDNA 重 新 定位 到 基因 组 当中 需要 更 加 复杂 的 专业 化 算法 。 要 
将 不 同 外 显 子 经 过 剪 切 拼接 之 后 生成 的 RNA 短 片段 重新 定位 到 基因 组 中 和 将 一 个 外 显 子 生 
成 的 RNA 短 片段 重新 定位 到 基因 组 中 是 完全 不 一 样 的 。 

在 RNA 反 转录 产物 cDNA 的 定位 操作 中 用 到 的 诸如 ERANGE( http: //woldlab.caltech. 
edu/rnaseq ) 这 类 软件 包 都 会 用 到 已 知 基因 的 外 显 子 位 置 和 内 含 子 位 置信 息 作 为 参考 。 这 
FÉ, ERANGE 软 件 包 就 能 “横路 ”多 个 外 显 子 构建 新 的 参考 序列 ,然后 再 调用 Maq 程 序 或 者 
Bowtie 程 序 将 剪 切 后 的 RNA 片 段 定 位 到 参考 序列 中 了 。 因 为 这 种 方法 不 能 发 现 新 的 (人 们 未 
知 的 ) 剪 切 模式 ,所 以 有 些 科 研 人 员 就 使 用 了 一 种 “机 需 学 习 法 ”( machine learning method ) 
来 预测 新 的 剪 切 模式 。 该 方法 借助 现 有 的 参考 序列 注释 信息 在 统计 模型 ( statistical model ) 
上 进行 过 演练 。 与 此 相反 , TopHat 软 件 包 ( http: //tophat.cbcb.umd.edu ) 则 不 需要 借助 任何 注 
释 信 息 , 它 使 用 的 是 Bowtie 软 件 来 发 现 包 含有 短片 段 的 外 显 子 ,然后 再 将 余下 的 短片 段 定 位 
到 前 面 发 现 的 各 种 外 显 子 连 接 体 当 中 。 

Maq、Bowtie 以 及 其 他 几 种 短片 段 作 图 软件 都 可 以 处 理 长 度 超过 100bp 的 测序 片段 结果 ， 
但 这 只 是 在 特定 的 情况 下 ,而 且 只 有 原本 就 是 针对 长 片段 设计 的 软件 ,例如 BLAT 才 能 更 好 
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地 处 理 这 类 测序 结果 。 另 外 ,如 果 测 序 的 样品 物种 序列 和 现 有 的 参考 序列 差异 很 大 , 那 该 如 
何 调整 作 图 软件 的 参数 呢 ? 软件 能 够 自动 调整 参数 吗 ? 这 样 做 出 来 的 图 质量 又 如 何 呢 ? 上 
述 这 些 问 题 的 解决 方案 都 依赖 于 采用 的 检测 方法 和 分 析 范 围 。 不 过 , 随 着 技术 的 进步 ,相信 
所 有 这 些 问 题 很 快 都 会 被 攻 元 。 








Sop 
DNA 和 RNA 测 序 


Section 4 DNA and RNA-Seq 


DNA-seq 在 疾病 中 已 经 得 到 了 广泛 的 应 用 , Shusuke Akamatsu 等 对 25$7 个 前 列 腺 癌症 样 
本 和 3003 个 正常 样本 的 DNA-seq 结 果 进 行 关联 分 析 , 发 现 11q12、10q26 和 3p11.2 这 几 个 区 域 
和 前 列 腺 瘤 易 感 有 显著 关联 。Chizu Tanikawa 等 在 日 本 人 和 群 中 发 现 了 两 个 和 十 二 指 肠 溃疡 易 
感 显著 关联 的 位 点 。Sun 等 人 使 用 RNA-seq 等 测序 方法 发 现在 前 列 腺 癌 组 织 中 发 现 可 能 导致 
癌症 融合 基因 。 新 一 代 测 序 技 术 除 了 在 疾病 中 的 常规 应 用 外 ,其 他 方面 的 使 用 前 景 也 很 好 。 


一 、DNA 重 测序 与 个 体 变异 发 现 》》 


人 类 基因 组 上 广泛 存在 着 多 种 遗传 变异 形式 与 DNA 多 态 性 。 单 个 核 车 酸 的 变异 早已 被 
熟知 ,其 中 那些 频率 大 于 1% 的 被 称 为 单 核 苷 酸 多 态 性 (SNP )。 国 际 人 类 基因 组 单 体型 图 计 
Xi] international HapMap project ) 已 经 在 人 类 群体 中 发 现 了 数 百 万 计 的 SNP。 尽 管 一 部 分 的 
SNP 被 发 现 与 人 类 疾病 相关 ,但 只 能 解释 疾病 遗传 因素 中 的 一 小 部 分 , 仍 有 较 多 的 未 知 遗传 
因素 ( missing heritability ) 没有 被 掏 示 。2008 年 初 局 动 的 “ 千 人 基因 组 ”计划 由 来 自 瑞 国 桑 
格 研 究 所 ,美国 国立 人 类 基因 组 研究 所 ,中 国 深圳 华 大 基因 研究 院 等 多 家 机 构 共 同 完成 。 在 
这 一 计划 中 ,科学 家 们 对 全 球 各 地 至 少 1000 个 (目前 是 2000 个 人 左右 ) 人 类 个 体 的 基因 组 进 
行 测序 ,寻找 基因 与 人 类 疾病 间 的 秘密 关系 。 通 过 这 些 测 序 也 将 生成 一 个 庞大 的 、 公 开 的 人 
类 基因 变异 目录 ,有 助 于 进行 分 析 以 及 个 体 化 医疗 。 千 人 基因 组 计划 完成 并 公布 了 首 项 研 
究 成 果 , 包 括 对 三 个 人 群 的 179 人 按 低 履 盖 率 进行 全 基因 组 测序 ; 对 两 个 由 “母亲 -父亲 - 护 
子 ” 组 成 的 三 人 组 按 高 覆盖 率 进 行 测序 ; 对 来 自 七 个 人 群 的 697 人 进行 以 外 显 子 为 目标 的 测 
序 。 这 项 研究 找 出 了 1000 多 万 个 大 大 小 小 的 基因 变种 ,其 中 约 800 万 个 都 是 以 前 所 未 知 的 。 
对 于 人 和 群 携带 率 在 1% 以 上 的 基因 变种 ,本 次 研究 的 覆盖 率 达 到 95% 以 上 。 这 一 成 果 在 医学 
等 领域 有 很 高 的 应 用 价值 ,比如 通过 参照 图 谱 , 可 以 方便 地 找 出 致 病 的 基因 变种 。 男 外 人 研究 
人 员 还 验证 了 在 大 型 基因 研究 中 综合 使 用 多 种 基因 测序 手段 的 可 行 性 。 由 于 基因 测序 成 
本 目前 仍 很 高 昂 ,如果 能 在 “ 精 测 ” 一 些 基 因 序 列 的 同时 ,对 男 一 些 基因 序列 只 需 “ 粗 测 ” 奈 
能 保证 最 终结 果 的 准确 性 ,将 可 以 大 幅 降低 基因 测序 研究 的 成 本 。Science 相 关 文 草 对 这 一 
方面 进行 了 介绍 ,文中 提 到 研究 人 员 开 发 出 了 几 种 分 析 和 计算 技术 克服 了 对 多 拷贝 基因 进 
行 研究 的 障碍 ,利用 这 一 新 方法 ,研究 人 员 对 1900 个 碱 基 对 长 的 DNA 片 段 拷贝 数 进行 精确 估 
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计 , 拷 贝 数 的 计数 范围 为 0~48 之 间 。 

除了 DNA 的 点 突变 ,基因 组 上 还 可 以 发 生 涉及 大 片段 DNA 序 列 的 变异 ,包括 亚 显 微 结 
构 ( sub-microscopic ) 的 微 重复 ( microduplication ) 和 微 缺 失 ( microdeletion )。 此 类 基因 组 片 
段 的 拷贝 数 变 异 ( copy number variation, CNV ) 和 SNP 类 似 , 除 了 一 部 分 会 致 病 以 外 ,也 可 以 
作为 一 种 遗传 多 态 性 存在 于 人 类 及 其 他 物种 的 基因 组 上 。 有 两 个 研究 小 组 借助 于 新 一 代 测 
序 技术 ,几乎 同时 发 现 了 人 类 基因 组 中 CNV 广 泛 分 布 , 不 仅 作为 一 种 遗传 多 态 性 在 人 类 基因 
组 中 广泛 分 布 ,而 且 可 以 导致 出 生 缺 陷 \ 对 艾滋 病 病毒 的 易 感 性 、 对 孤独 症 和 精神 分 裂 钙 的 
易 感 性 等 复杂 疾病 。 已 经 报道 的 基因 组 结构 变异 ( structural variation, SV ) 超过 66 000 个 ,其 
中 主要 是 CNV。- 借助 于 新 一 代 测 序 技 术 和 相应 的 实验 策略 ,如 paired-end mapping ( PEM ) 与 
基于 测序 深度 ( Read depth ) 检测 的 分 析 方 法 ,对 CNV 进 行 高 通 量 无 偏差 的 发 现 和 精确 定位 。 
人 类 基因 组 结构 变异 研究 组 ( human genome structural variation group ) 和 千 人 基因 组 计划 已 
经 获得 了 初步 数据 ,包括 1500 万 个 SNP,100 万 个 短 的 插入 或 缺失 以 及 2 万 个 CNV 的 位 点 ,其 
中 绝 大 部 分 都 是 新 的 发 现 。 


二 、 细 菌 基因 组 测序 与 致 病 性 位 点 发 现 >> 


一 个 合作 研究 项 目 采 用 454 测 序 仪 对 4 株 结 核 分 枝 杆菌 基因 组 进行 测序 ,这 四 株 结核 
分 枝 杆 菌 分 别 是 一 株 对 R207910 具 有 了 耐 药性 的 结核 分 术 杆 南 ( mycobacterium tuberculosis ) 
菌株 ,基因 组 大 小 约 4Mb; 两 株 对 R207910 具 有 了 耐 药 性 的 耻 垢 分 校 杆 菌 ( mycobacterium 
smegmatis ), 基因 组 大 小 约 6Mb; 以 及 一 株 正 常 的 耻 垢 分 校 杆 菌 ,基因 组 大 小 约 6Mb。 他 们 项 
望 能 发 现 结核 分 枝 杆 菌 对 R207910 产 生 抗 药 性 的 机 制 。 该 项 研究 在 只 有 一 位 实验 人 员 参 与 
实验 的 情况 下 ,包括 样品 制备 等 步骤 在 内 所 用 的 时 间 仅 需要 一 周 ,而 且 避 免 了 传统 测序 方法 
中 细菌 克隆 阶段 可 能 出 现 的 错误 ,获得 了 高 质量 的 测序 结果 ,发 现 了 导致 结核 分 校 杆 落 对 
R207910 产 生 抗 药 性 的 两 个 点 突变 位 点 。 这 项 研究 成 果 让 我 们 在 最 近 的 40 年 内 第 一 次 找到 
了 特异 性 治疗 结核 病 的 药物 。 随 后 研究 人 员 开 展 了 一 系列 采用 新 一 代 测 序 仪 的 研究 项 目 ， 
对 高 致 病 性 细菌 空肠 弯曲 菌 ( campylobacter jejun ) 基因 组 的 从 头 测序 项 目 et Ba DP] RFT TRI 
( helicobacter pylori ) 在 慢性 胃炎 致 病 过 程 中 的 进化 研究 项 目 、 从 南极 海 冰 细菌 ( Antarctic sea 
ice bacterium ) 中 新 发 现 冰 结合 蛋白 (ice-binding protein ) 并 对 其 测序 的 研究 项 H ,以 及 在 引 
起 肺炎 脑膜 炎 和 泌尿 道 感染 的 细菌 中 发 现 致 病因 素 的 研究 项 目 等 。 


三 、 宏 基因 组 测序 与 感染 性 疾病 分 析 >> 


美国 在 2001 年 暴发 了 炭 痊 恕 怖 袭击 危机 之 后 ,人 研究 人 员 开 始 针 对 复杂 的 、 未 知 的 、 未 
人 工 培养 的 环境 微生物 基因 组 进行 测序 。 在 一 个 研究 项 目 中 ,有 三 名 患者 都 接受 了 同一 名 
澳大利亚 器 官 捐 赠 者 的 器 官 ,之 后 均 因 不 明 原 因而 死亡 。 从 这 三 名 死者 身上 提取 了 非 人 类 
DNA 样 品 进行 测序 ,结果 获得 了 144 000 条 序列 。 分 析 后 发 现 ,这 些 序 列 分 别 属于 一 种 沙 粒 
病毒 科 ( Arenaviridae ) 家 族 病毒 的 14 个 不 同 基因 。 随 后 进行 的 第 二 项 研究 在 对 健康 蜂 群 和 
患 病 蜂 群 进行 环境 基因 组 学 比较 研究 之 后 发 现 , 以 色 列 急性 麻 辛 病毒 ( Israeli acute paralysis 
virus ) 是 导致 蜜蜂 蜂 群 衣 演 症 的 元 凶 。 这 些 研 究 都 突出 了 新 一 代 测 序 仪 的 一 个 特点 , 即 在 样 
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品 准备 前 不 需要 进行 克隆 或 预 扩 增 步骤 ,因此 非常 适用 于 对 未 知 的 未 能 人 工 培养 的 物种 进 
行 测序 。 这 些 特点 也 在 其 他 对 地 下 矿藏 ,深海 .土壤 和 高 盐 等 环境 下 进行 的 环境 微生物 构成 
方面 的 研究 所 证 实 。 


四 古生物 基因 组 和 进化 研究 >> 


要 用 传统 的 测序 方法 对 尼 安 德 特 人 的 基因 组 进行 测序 人 研究 非常 困难 ,因为 这 些 
古老 DNA 量 非常 少 ,而 且 都 早已 妥 解 成 了 片段 。 一 个 国际 性 的 研究 团队 对 尼 安 德 特 人 
( Neandertal ) 的 基因 组 序列 进行 了 测定 。 他 们 所 用 的 是 在 克罗地亚 的 一 个 洞穴 中 发 现 的 来 
目 3 个 尼 安 德 特 人 骨头 的 一 个 药片 大 小 的 骨粉 样品 。 他 们 将 这 些 尼 安 德 特 人 的 基因 组 与 来 
目 世 界 不 同 地 区 的 5 个 现代 人 的 基因 组 进行 了 比较 。 绪 果 显 示 , 人 类 拥有 多 种 独特 的 基因 ，， 
其 中 包括 在 人 类 与 尼 安 德 特 人 从 一 个 共同 祖先 分 开 之 后 少数 在 我 们 的 人 类 种 系 中 快速 扩散 
的 基因 。 人 研 究 还 发 现在 人 类 中 经 常 发 生 但 在 尼 安 德 特 人 中 却 不 发 生 的 基因 序列 变异 的 基因 
组 区 域 。 他 们 找到 了 212 个 有 这 种 变异 的 区 域 。 在 其 中 20 个 区 域 中 ,有 着 最 强 的 正 辐 选 择 证 
据 的 是 3 个 基因 , 当 它 们 发 生 突变 的 时 候 , 可 影响 思维 和 认 知 能 力 的 发 展 。 这 些 基 因 被 认为 
与 Down 综 合 征 、 精 神 分 裂 症 和 目 半 钙 有 关 。 该 团队 的 带头 人 Piabo 说 : 获得 第 一 个 版 本 的 尼 
安 德 特 人 的 基因 组 测序 完成 了 人 们 的 一 个 长 期 以 来 的 梦想 。 我 们 第 一 次 能 够 发 现 将 我 们 与 
其 他 所 有 生物 区 别 开 来 的 基因 特征 ,其 中 包括 那些 在 进化 上 距离 我 们 最 近 的 亲族 。” 尼 安 德 
特 人 第 一 次 出 现 的 时 间 大 约 在 40 万 年 之 前 ,其 分 布 这 及 欧洲 和 西亚 ,并 在 大 约 3 万 年 前 炎 绝 。 
Paiabo 带 领 的 男 一 项 研究 提出 了 对 尼 安 德 特 人 基因 组 的 选择 区 域 (特别 是 那些 来 自己 经 降解 
的 尼 安 德 特 人 遗 骨 ) 进行 测序 的 新 技术 。 他 们 应 用 一 种 “目标 序列 捕捉” 的 方法 来 加 强 他 们 
对 来 自 西班牙 的 男 外 一 个 尼 安 德 特 人 个 体 的 基因 组 中 的 数 个 片段 的 重 日 编码 区 域 的 聚焦 。 
他 们 发 现 了 88 个 蔡 代 氨基 酸 ,这 些 氨 基 酸 在 我 们 与 尼 安 德 特 人 分 开 之 后 已 经 成 为 固定 的 状 
态 。 尼 安 德 特 人 的 基因 组 片段 长 度 基本 上 都 介 于 40~90bp 之 间 , 而 且 最 近 开 发 的 乳液 PCR 方 
法 也 能 够 对 微量 ( 单 分 子 ) 样 本 进行 很 好 的 扩 增 。 


五 外 显 子 组 测序 >> 


外 显 子 组 是 指 全 部 外 显 子 区 域 的 集合 ,该 区 域 包 含 合成 重 晶 质 所 知 要 的 重要 信息 , Ye 
了 与 个 体 表 型 相关 的 大 部 分 功能 性 变异 。 外 显 子 组 序列 捕获 及 第 二 代 测 序 是 一 种 新 型 的 基 
因 组 分 析 技 术 。 与 全 基因 组 重 测序 相 比 ,外 显 子 组 测序 只 和 需 针 对 外 显 子 区 域 的 DNA 即 可 , 窗 
盖 度 更 深 、 数 据 准 确 性 更 高 ,更 加 简便、 经 济 、 高 效 。 可 用 于 寻找 复杂 疾病 如 瘤 症 、 糖 尿 病 、 肥 
胖 症 的 致 病 基因 和 易 感 基因 等 的 研究 。 目 前 许多 科学 家 都 利用 这 一 方法 找到 了 致 病 基因 ， 
比如 美国 国家 心肺 血液 研究 所 就 从 4 名 弗 里 曼 谢 尔 登 综 合 征 患者 的 DNA 中 准确 找 出 了 致 病 
基因 变异 。 他 们 的 研究 表明 ,对 于 单个 基因 变异 引起 的 疾病 ,外 显 子 测序 同样 可 以 准确 找到 
致 病 基 因 ,与 全 基因 组 测序 无 异 。 研 究 人 员 认 为 ,外 显 子 测序 也 可 用 于 多 重 基因 变异 引起 的 
常见 疾病 ,如 糖尿 病 和 癌症 的 研究 中 ,来 揭示 该 种 疾病 的 致 病 基因 。 

来 自 华 盛 顿 大 学 医学 院 的 研究 人 员 利 用 外 显 子 组 测序 方法 ,找到 了 一 种 致命 性 眼睛 瘤 
症 的 关键 基因 ,这 一 研究 成 果 可 能 作为 未 来 治疗 这 种 癌症 的 靶 标 ,并 且 用 于 其 他 具有 高 度 转 
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移 性 癌症 的 治疗 靶 标 。 和 葡萄 膜 恶 性 黑色 素 瘤 ( maligment melanoma of uvea ) 是 成 年 人 中 最 多 
见 的 一 种 恶性 眼 内 肿瘤 ,在 国外 其 发 病 率 占 眼 内 肿瘤 的 首位 ,在 国内 则 仅 次 于 视网膜 母 细 胞 
fed ,位 列 眼 内 肿瘤 的 第 二 位 。 此 瘤 的 恶性 程度 高 , 易 经 血 流 转移 ,在 成 年 人 中 又 是 比较 多 见 ， 
在 临床 工作 中 易 与 许多 眼底 疾病 相 混 消 。 由 于 这 种 癌症 转移 程度 很 高 ,因此 要 找到 关键 的 
基因 并 不 容易 ,之 前 的 研究 发 现 这 种 瘤 症 涉及 调节 重 白 降解 的 特别 基因 的 缺陷 ,为 了 进一步 
分 析 葡 葡 膜 恶性 黑色 素 瘤 ,研究 人 员 采 用 了 外 显 子 组 测序 方法 ,结果 发 现在 研究 人 员 分 析 的 
31 个 肿瘤 样本 中 有 26 个 ( 占 84% ) 在 一 个 叫做 BAP1 的 基因 中 存在 着 失 活性 突变 。 研 究 结果 
发 现 , BAP1 信 和 号 转 导 通 路 不 但 可 作为 葡 欧 膜 黑 色素 瘤 的 一 种 治疗 目标 ,而 且 它 还 有 可 能 作 
为 其 他 具有 高 度 转 移 性 的 癌症 的 治疗 目标 。 








六 、 非 编码 RNA 测 序 >>> 


454 测 序 仪 具 有 不 需要 进行 传统 的 细菌 克隆 步骤 ,而 且 足 以 覆盖 只 有 21bp 长 的 miRNA 的 
测序 长 度 等 优势 。 其 最 早 参 与 进行 的 miRNA 人 研究 是 对 拟 南 草 ( arabidopsis thaliana ) miRNA 
开展 的 研究 。 随 后 马上 又 参与 了 另 一 项 研究 项 目 ,在 这 个 项 目 中 我 们 在 小 鼠 体内 发 现 了 一 
种 新 型 的 小 RNA 一 一 piRNA。 这 些 人 研究 项 目 为 我 们 在 人 类 、 黑 猩猩 \ 斑 马 鱼 和 肿瘤 细胞 系 中 
开展 小 RNA 研 究 铺 平 了 道路 。454 测 序 仪 具有 的 这 种 对 小 RNA 进 行 研究 的 能 力 使 它 在 众多 
有 关 RNA 的 研究 领域 都 能 有 所 作为 ,例如 转录 体 人 研究 领域 、 EST 研 究 领域 研究 领域 和 基于 转 
录 体 的 SNP 人 研究 领域 等 。 





七 核糖 体 印记 与 深度 测序 技术 》》) 


将 核糖 体 图 谱 ( ribosome profiling ) 和 深度 测序 ( deep sequencing ) 相 结合 ,研究 人 员 可 以 
从 基因 组 水 平 监测 和 蛋白质 的 翻译 状况 。 深 度 测 序 的 强大 功能 对 生物 学 研究 的 各 个 领域 都 
产生 了 极 大 的 影响 。 在 诸如 全 基因 组 测序 等 方面 ,新 技术 的 高 效 性 和 经 济 性 使 人 们 得 以 以 
一 种 以 前 无 法 想象 的 方式 进行 试验 人 研究。 而 在 男 一 些 情况 下 ,例如 RNA 测 序 时 ,借助 深度 测 
序 可 以 进行 更 多 的 定量 分 析 , 获 得 更 大 的 动态 范围 。 在 男 一 些 研 究 中 ,例如 最 近 由 美国 加 
州 大 学 ( University of California ) 的 Jonathan Weissman 小 组 发 表 的 有 关 翻 译 图 谱 ( translational 
profiling ) 的 研究 中 报道 的 那样 ,深度 测序 不 仅 是 一 个 有 效 的 定量 手段 ,同时 还 能 提供 很 多 有 
用 的 新 信息 。 

使 用 核酸 酶 消化 mRNA 时 ,在 翻译 过 程 中 发 挥 作用 的 核糖 体 结 合并 保护 了 大 约 30bp 的 
mRNA 片段 。 这 些 被 保护 的 mRNA 片段 构建 成 DNA 文 库 , 再 使 用 测序 仪 对 文库 中 所 有 的 片段 
进行 测序 ,最终 得 到 有 关 细 胞 中 和 蛋白质 翻译 情况 。 

这 种 方法 可 以 应 用 于 很 多 方面 。 首 先 , 它 能 广泛 地 用 于 和 蛋白质 组 研究 当中 。 这 种 新 方 
法 用 于 人 研究 酵母 ,因为 酵母 比较 简单 ,同时 也 被 研究 得 比较 透彻 ,因此 相对 来 说 比较 容易 研 
究 。 但 是 从 理论 上 来 说 ,该 方法 是 可 以 应 用 到 其 他 任何 一 种 物种 中 的 。 另 外 ,将 该 技术 与 标 
记 有 抗原 表 位 的 核糖 体 ( epitope-tagged ribosomes ) 结合 使 用 ,还 有 可 能 用 于 研究 组 织 特 异性 
MEHM tissue-specific translation )。 

其 次 ,在 检测 重 白 质 表 达 情 况 时 ,使 用 核糖 体 图 谱 技 术 相 比 检测 mRNA 丰 度 来 说 更 准 
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确 。 研 究 人 员 借 助 核糖 体 图 谱 技 术 为 胞 内 数 千 种 mRNA 构建 了 核糖 体 印 记 密 度 图 谐 ,并 通 
过 这 些 数 据 获 得 了 重 白质 翻译 表达 速度 方面 的 数据 。 据 这 些 人 研究 人 员 报 道 , 使 用 重 日 质 翻 
译 表 达 速 度 方面 的 数据 来 判断 和 蛋白质 丰 度 要 比 用 mRNA 丰 度 来 预测 准确 得 多 。 实 际 上 ,如 
果 对 结合 在 mRNA 链 $” 端 的 核糖 体 数目 进行 进一步 的 修正 ,就 能 更 准确 地 预测 出 重 日 质 的 
丰 度 。 | 

核糖 体 图 谱 还 可 以 用 于 翻译 控制 (translational control ) 分 析 。 核 糖 体 图 谱 技 术 具 有 很 
高 的 空间 准确 性 ( spatial precision ), 能 准确 地 反映 出 究竟 是 哪 一 个 阅 谈 杠 被 翻译 了 。 因 此 ， 
可 以 使 用 该 技术 研究 程序 性 框 移 ( programmed frameshift ) 和 终止 密码 子 通 读 ( stop-codon 
readthrough ) 等 现象 。 
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研究 实例 : 基于 新 一 代 测 序 技术 的 瘤 症 组 学 
研究 


Section 5 Case Studies: Canceromics Research basd on the Next 





Generation Sequencing Technology 


一 、 短 序列 数据 准备 》》 


短片 段 序列 数据 库 Short Read Archive( SRA ) 是 美国 国立 生物 技术 信息 中 心 网 站 中 的 一 
个 存储 新 一 代 测 序数 据 的 数据 库 , 它 提供 了 包括 实验 注释 信息 、 实 验 参 数 等 信息 的 测序 数 
jn ,可 以 在 该 数据 库 中 检索 并 下 载 感 兴趣 的 数据 。 下 面 分 6 个 步骤 对 下 载 数据 进行 实例 操作 。 

步骤 1 : 访问 NCBI SRA 数 据 库 http: //www.ncbi.nlm.nih.gov/sra( 图 6-8 ), 在 搜索 框 中 输入 
感 兴趣 的 查询 关键 词 ,例如 “lung cancer" ; 


= NCBI Resources |v! How To |v My NCBI Sign in 


[SRA =] Search f 


Limits Advanced 


@ ANNOUNCEMENT: 12 Oct 2011: Status of the NCBI Sequence Read Archive (SRA 


Other Resources 





GETTING STARTED RESOURCES FEATURED NCBI INFORMATION 
Áp Internet a? 人 100% - 


图 6-8 ”SRA 数据 库 网 站 首页 
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步骤 2 : 关键 词 “lung cancer” 得 到 78 个 查询 结果 (图 6-9 ), 页 面 右 上 方 提供 了 过 滤 查 询 
结果 的 条 件 ， 包括 使 用 权限 、 数 据 来 源 和 数据 类 型 。 此 处 按照 使 用 权限 ,有 两 套数 据 需 要 申 
请 才能 获得 ,剩余 的 76 套 数据 可 以 免费 下 载 。 
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2. ILLUMINA (illumina Genome Analyzer lix) run: 26.9M spots, 970M bases. $74 5MB downloads 
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图 6-9 SRA 数 据 库 查 询 结 果 


步骤 3 : 过 滤 条 件 选 择 “access: Public” 得 到 76 个 能 够 自由 下 载 的 数据 列表 (图 6-10 )。 
选择 第 一 套数 据 GSM718714 : Smoker with Lung Cancer( C_NuGEN ), 并 查看 样本 信息 。 
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图 6-10 SRA 数 据 库 查询 过 滤 结 果 
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步骤 4 : GSM718714 : Smoker with Lung Cancer ( C_NuGEN ) 的 样本 信息 包含 关于 研究 
( Study )\ 样 本 ( Sample )、 实 验 ( Library ) 等 信息 的 描述 (图 6-11 )。 





Display Settings: fe Full Send to: (ei VI ARM arat e b si m ss Bn i cL mnm a V 

Related information ^ nu 
GSM718714 Smoker with Lung Cancer (C NuGEN) BicSample ey 
Accession: SRX060176 GEO DataSets " 
Experiment design: n/a d 


Submission: SRA036189 by GEO PubMed ia 
Study summary: GSE29006: mRNA-seq of Human Airway Epithelial Cells (SRP006676) » Study * All experiments (more ) Taxonomy t 
Sample: source. Large airway epithelial cells (585190964) (more. 






LI 
Library: GSM718714. Smoker with Lung Cancer (C NuGEN) (more. | 一 aoram e E i 
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Processing: lumon Cee P 
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图 6-11 SRA 数 据 库 样本 GSM718714 信 息 


步骤 5 : 点 击 “more...” 即 可 查看 更 详细 的 信息 (图 6-12 )。 其 中 Sample 的 详细 描述 包括 
实验 细胞 类 型 ,样本 性 别 , 吸 烟 状态 等 信息 ; Library 的 详细 描述 包括 实验 平台 ,测序 类 型 , 测 
序 长 度 等 信息 。 
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OA Accession GSE29006 


Project Contact Name  Avrum „Spira, Email = aspira@lung bumc bu edu. Laboratory = Pulmonomics Lab. Recent activity * g 
Department = Pulmonary and Critical Care Medicine; institute = Boston University Medical Center, Address = 715 Tamot Cea | 
Albany Street, R304; City = Boston: Zip/Postal Code = 02118; Country = USA; Phone = 617-636-4860. Fax = 617-536- hd 
8093. Web Link = http //www pulmonomics org: Q, lung cancer (78) 


Project Contrbutor Jennder, Beane 
Extemal ink- GEQ Web Link —--— 
NCB! links: NCOI Entrez igds) — NCBI Entrez (pubmed) 


Sample: source: Large airway epithelial cells (385190964) (less. ) 
Organism’ Homo sapiens 
Attnoutes 
GEO Accession. GSMT718714 
average age 647 
cell type large airway epithelial cells 
gender 2 Male, 1 Female 
lung cancer 3 Yes 
packyears 757 
smolong status 2 Former, 1 Current 
Extemal ink GEO Web Link 
Library: GSM718714 Smoker with Lung Cancer (C NuGEN) (less | 
Strategy RNA-Seq 
Source TRANSCRIPTOMIC 





INN 









实验 类 型 、 平 台 、 测 序 


Construction protocol Standard lliumma mRNA-seq Protocol (Paired end 75 bp reads. fragments were 300bp. 2 50 bp 
adapter sequences. 2 75 bp reads. and a 50 bp msert (sd= 50bp) or prototype NuGEN Ovation RNA-seq protocol (36 bp 
single end reads) 

Platform: illumina (less. | 

instrument model. lumina Genome Analyzer Ilx. 


图 6-12 样本 GSM718714 部 分 详细 信息 
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”步骤 6 : 点 击 “Study summary” 中 的 “Study” 可 以 链接 到 样本 GSM718714 所 在 实验 
SRP006676 的 完整 记录 (图 6-13 ), 右 上 方 提供 该 实验 包含 全 部 样本 的 数据 下 载 链接 ,并 可 以 
选择 安装 Aspera plugin 软 件 来 加 快 下 载 速 度 , 右 下 方 提供 该 实验 包含 的 单个 样本 的 数据 下 载 
链接 。 


ilh. Sequence Read Archive 


: genaue ewe Teac Mr re onm cesis 





SRP006676 GSE29006: mRNA-seq of Human Airway Epithelial Cells f 
Study Type: Transcriptome Analysis Show Entrez docsums for al experiments 
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Abstract: n/a sra-ite (10.06) i 
Description: Summary: mRNA expression was proflled from pooled bronchial airway Q Whats "wa" and "satte" formats? 

cel brushngs (n=3 patents/poo)) obtaned : 









smoker with lung cancer. 


J 
: 
Center GSE29006: mRNA-seq of Human Airway Epithelial Cels 1 
Project: En 
NCBI Links: Z 


External ink: — GEO Web Link 


图 6-13 实验 SRP006676 的 完整 记录 


使 用 Aspera plugin 下 载 样本 单 末 新 测序 样本 GSM718714 的 数据 SRR192340, 为 了 后 面 
求 差 异 表达 (图 6-14 ), 另 外 下 载 两 个 双 末 端 测序 数据 ,一 个 是 健康 样本 GSM718707 的 数据 
SRR192333 ,一 个 肺癌 样本 GSM718710 的 数据 SRR192336。 
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图 6-14 使 用 Aspera plugin T RARE 
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二 、 短 序列 数据 格式 转换 >>> 


下 载 得 到 的 以 .sra 结 尾 的 文件 是 一 个 压缩 格式 的 文件 ,无 法 直接 阅读 ,使 用 前 需要 通过 
软件 将 其 转换 为 .fastq 等 格式 ,这 就 用 到 了 SRA Toolkit 中 的 fastaq-dump 命 令 。 进 行 短 序列 格 
式 转换 主要 分 为 以 下 四 步 。 

步骤 1 : 下 载 SRA Toolkit 软 件 。 访 问 NCBI SRA 数 据 库 网 站 首页 ,点 击 “SRA software” ,在 
打开 的 页 面 中 ,点 击 下 载 需要 的 版 本 (图 6-15 )。 此 处 选择 Linux 下 的 版 本 CentOS Linux 64 bit 
architecture。 


Le > à hity [Jews ach? Rie mé. gue/Teuces/ it Tvs eet eof tours 
è an Fugi i 


— ee 
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^ 查看 收藏 夹 、 源 和 历史 记录 ( Alt+C 





Software 是 
SRA Toolkit 
1. NCBI SRA Toolkit atest release (March 30 2012, version 2.1.10 release) compiled binaries and mds checksums: 






* MS Windows 22 DX archtecture 
* ydb-view Windows Installer s a spreadsheet-ike browser for viewing SRA and vdb objects - Windows only 
2. Latest Source Code release: 


NCSI SRA Software Development Kf ~ March 30 2012, version 2.1.10 release 
3. Documentation: 


图 6-15 下 载 SRA Toolkit 
步骤 2 : 使 用 Xmanager 的 Xftp 将 下 载 的 sratoolkit.2.1.10-centos_linux64.tar.gz 上 传 到 服务 
器 (图 6-16 )。 


"AO sretoolkit 2.1.10- xtA 
| CQ sratoolki t 2. 1. 10-... 7T.08NB WinZip Xf 2012-4-9, 7:24 


/ 210. 46. 85. 150 
2.96N8/27.06NB D:\SRA\sratoolk |. ~>  /pub2/lirhb2011/ . 210. 48. 85. 150 


"m SS ee as ia { J^ i itid " m are "e^ D. b j / 
TE E Maa, eil ario d Mn FC rim iut ue Mig eR T A m and] 


图 6-16  sratoolkit/& 5i &, E 4t AMRF BS 
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步骤 3 : 将 sratoolkit.2.1.10-centos_linux64.tar.gz 解 压缩 ,并 将 目录 sratoolkit.2.1.10-centos_ 


linux64/bin 添 加 到 linux 系 统 的 环境 变量 PATH 中 ,这 样 在 使 用 该 程序 的 时 候 就 不 用 输入 该 
程序 的 绝对 路 径 ( 在 文件 ~/.bash_profile 文 件 中 添加 export PATH= /sratoolkit.2.1.10-centos_ 


linux64/bin: $PATH ), 这 样 用户 就 可 以 在 控制 台中 使 用 sratoolkit 的 各 项 工具 了 ,其 中 fastq- 
dump 命 令 可 以 进行 序列 转换 (图 6-17 )。 





[lirh2011@webserver book]$ tar -xzf sratoolkit.2.1.10-centos linuxé4.tar.gz 
[lirh2011@webserver book]$ vi ~/.bash_profile 

[lirh2011@webserver book]$ source -/.bash profile 
[lirh2011@webserver book]$ fastq-dump 












Usage: i 
fastq-dump [options] [ -A ] «accession» 
fastq-dump [options] <path [path...]> 











指定 要 转换 的 .sra 
文件 的 路 径 


Use option --help for more information 





fastq-dump : 2.1.12 


图 6-17 安装 SRA Toolkit 
注 : 如 果 选 择 Windows 版 本 , 则 将 下 载 后 的 文件 解压 缩 , 将 sratoolk 让 .2.1.10-win32/bin 目 录 
添加 到 系统 的 环境 变量 PATH 中 (右键 桌面 的 我 的 电脑 -> 属性 -3 高 级 -> 环境 变量 -> 系统 变 
量 ->PATH-> 修 改 加 入 新 的 路 径 ), 然 后 点 击 开 始 菜单 ,运行 -=>cmd 就 可 以 Nindows 控 制 台中 执行 
fastq 一 dump 命 令 了 。 


步骤 4 : 使 用 fastq-dump 进 行文 件 格式 转换 。 对 于 单 末端 测序 的 数据 (如 SRR192340 ) 
可 直接 执行 fastq-dump 命 令 , 输 出 结果 为 一 个 .fastq 文 件 ; 对 于 双 末 端 测序 数据 (如 
SRR192333 ), 执 行 fastq-dump 命 令 时 需要 添加 参数 --split-3 来 指定 输出 为 2 个 文件 
(图 6-18 )。 


[lirh2011@webserver book]$ cd /pub2/lirh2011/book/data 
[lirh20118webserver data]$ fastq-dump --split-3 -A SRR192333 /pub2/lirh2011/bock/data/SRX060169/5RR192333/SRR192333.sra 


iritten 28216213 spots for /pub2/lirh2011/book/data/SRX060169/SRR192333/SRR192333.sra ^" 双 末 端 测 序 


[lirh20118webserver data]$ fastq-dump -A SRR192340 /pub2/lirh2011/book/data/SRX060176/SRR192340/SRR192340.sra 
Written 27780649 spots for /pub2/lirh2011/book/data/SRX060176/SRR192340/SRR192340.8ra 

Written 27780649 spots total 

(lirh20118webserver data]$ 1s 

SRR192333 1.fastq SRR192333_2.fastq SRR192340.fastq  SRX060169  SRX060176 

{[lirh2011@webserver data]$ 

[lirh20ll@webserver data] less SER192340.fastq 

@SRR192340.1 HWI-EAS266:3:1:0:629 length=36 

CCTAGGGCCACAGACTTIGCAGGIGICIGAGCIGAGC 

*SRR192340.1 HWI-EAS266:3:1:0:629 lengthe36 

ABB?ABBBBÉBAAAABA«?BBB»; 8-AA?0ABO;»6 

@SRR192340.2 HWI-EAS266:3:1:0:488 length=36 

CCTCCGACTITCGTICTIGATTAATGAAAACATICT EET 

+SRR192340.2 HWI-EAS266:3:1:0:488 length=36 as ee : 
BECCCCBBCCCBCBBACCCECBBBBCCBBOCCCBBC 每 4 行 表示 一 条 read 
@SRR192340.3 HWI-EAS266:3:1:0:380 length=36 4-2 EL ifNS £n L7. prH 
CCGCACCCAATTGGACCAATCTATCACCCTATAGAA 第 3 行 是 ID 和 长 度 信 息 | 
48RR192340.3 HWI-EAS266:3:1:0:380 lengths36 n e aA t E 
BRAGBBAGS> 27BBBEB 2? >< >ABG? 7A>QABEBE=SA i 78241 是 序列 , 第 4 行 是 质量 数 
@SRR192340.4 HWI-EAS266:3:1:0:467 lengthe36 Tee 4 x. = 
AGGIGIGAGGAGTTCAGTTIAAATGTTIGGGATITIT 

*SRR192340.4 HWI-EAS266:3:1:0:467 length=36 


?: CACBCCCCCCCCCCCCCCCCCCCCCCCCCCOXC» 





图 6-18 运行 fastq 一 dump 结 果 
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三 、 短 序列 在 参考 基因 组 上 定位 >>> 


以 下 分 六 个 步骤 将 转换 成 fastq 格 式 的 短 序列 文件 定位 到 参考 基因 组 上 。 

步骤 1 : 访问 bowtie 软 件 首 Ji http: //bowtie-bio.sourceforge.net/index.shtml( 图 6-19 ), 页 面 
右 侧 提供 软件 的 使 用 说 明 、 下 载 链接 .与 软件 相关 的 其 他 工具 的 链接 以 及 预先 构建 好 的 参考 
基因 组 。 





D T 


dansk Wa TESTO, 
Home 
> Bowtie 2 beta released - 10/16/2011 "— | 
Getting started T 
* Bowtie 2 2.0.0-beta2 is avadabie now. Manual 
* Differences between Bowtie 2 and Bowtie 1 include: Tools that use Bowtie 


« For reads longer than about 50 bp Bowtie 2 is generally faster, more sensitive, and uses less Laestüelaso —— 000 T zt 加 d "Tm 
memory than Bowtie 1. For relatively short reads (e.g. less than 50 bp) Bowtie 1 is sometimes 一 


Bowtie 0.12.7、 9/7/10 





faster and/or more sensie. Please cite: Langmead B, Trapnall C. Pop M, Salzberg 

+ Bowtie 2 supports gapped alignment with affine gap penalties. Number of gaps and gap SL. Ultrafast and mamory-ailiciont slignmant af short 
lengths are not restricted, except by way of the configurable scoring scheme. Bowtie 1 finds DNA sequences to the human genome, Geneme Biol 
just ungapped alignments. For release updates, subscribe te the mailing liat 

» Bowtie 2 supports local alignment, which doesn't require reads to align end-to-end, Local - 
alignments might be "trimmed" ("soft clipped") at one or both extremes in a way that mM TITTEN 


optimizes alignment score. Bowbe 2 also supports end-to-end alignment which, like Bowtie 1, 
requires that the read align entirely, 
» There is no upper imit on read length in Bowtie 2. Bowtie 1 has an upper limit of around 1000 


Bowtie 2: Fast, accurate read alignment 
Crossbow: Genotyping, cloud computing 


bo. Tophat: RNA-Seq splice junction mapper 

+ Bowtie 2 allows alignments to overlap ambiguous characters (e.g. Es) in the reference. Bowtie Cuffinks: Isoform assembly, quantitation 
1 does not. Myrna: Cloud, differential gene expression 

+ Bowtie 2 does away with Bowtie 1's notion of alignment “stratum”, and its distinction Other tools using Bowtie 
between "Maq-like" and "end-to-end" modes. In Bowtie 2 all alignments lie along a un ' — ri 
continuous spectrum of alignment scores where the scoring scheme, simdar to Needleman- PrebulUndexes |. P Ur mw CORN Co 
Wunsch and Smith-Waterman. H. sapiens, UCSC hg18 2.7 GB 


+ Bowtie 2's paired-end alignment is more flexible, E.g. for pairs that do not align in a paired 
fashion, Bowtie 2 attempts to find unpaired alignments for each mate. 
+ Bowbe 2 does not align colorspace reads. 


or: part 1 - 1.7 GB, part 2 - 1.0 68 
colorspace: full, or part 1, part 2 





H. sapiens, UCSC hg19 2.7 GB 
? Fixed chicken index - 7/19/2011 or: part 1 - 1.7 GB, part 2 - 1,0 GB 
* The pre-built chicken genome available from this website was missing chr25. chr25 random colorspace: full, or part 1, part 2 
was included, but chr25 was erroneously excluded, This is fixed as of today - the index files hnked H. sapiens, NCBI v36 2.7 GB 
to from the sidebar now contains all chicken chromosomes. Or: part 1- 1.7 GB, part 2 - 1.0.GB 
mon omm mmm Bath mem mm mmo 
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图 6-19 软件 bowtie 首 页 


点 击 Latest Release 中 的 Bowtie ,打开 下 载 页 面 (图 6-20 )。 


fdowtse/V. be Ta bo^ 


dr AT TO CT Ld dt] 177 





Next Generation Sequencing Analysis Usernendly. Advanced, Integrated 


i 


Exe .0 Tectunolegy Services that can M 
AdChoes > Megsuratée results a ft 
t 
Bowtie a ben tangmead, cirapnel, meschatr à 
Surnenery Files Reviews Support Develop Tracker — Malling Lists Forums Code | 
n 
Looting for the latest version? Download bowtie-0.12.7-src.rip (7.7 ME) D ud 
N 
Home / bowbe /0 127 A i 
r Open & Download Zip Files 
Name s Modified * Size * Most Popular Compression Utility for fi 
Windows. Official Site Downoad 
ft Parent folder mr Wa corn 
bowbe-0 12 7-macos-10.5-x86. 54 zip 2010-00-07  89M8 a 
bowtie-0) 12. 7-macos-10.5-(386 1p 2010-08-07 «B87 UB i 
Genomics Resources 
bowte-0.12 7-linux-x86. 64 zip 2010-00-07 10558 ü .. Free Bioinformatics Tools Genonucs News, 
= Updates and Lectures 
mum more SEITE 
bowbe-0. 12 7-linux-i386.2ip 2070-09-07  104MB BU. 
AOne > 
bowbe-0 12 7-srezip 2010-00-07  77MB ü w& 
bowtW-0 12 7-win22 zip 2010-09-07 126M8 n.. Nucleic Acids Cont 2012, 
All-inclusive Cenbbean Location. World i 
" renowned speakers and chairs, 
Totais: 6 Items 58.9 MB à Á ~ icon zl 






图 6-20 ”下载 bowtie 的 安装 文件 
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”步骤 2 : 安 法 bowtie。 将 下 载 的 bowtie-*.*.*-]linux-x86_64.zip 文 件 上 传 到 服务 ,使 用 unzip 

命令 将 文件 解压 缩 ,然后 将 得 到 的 目录 bowtie-*.*.*#* 添 加 到 linux 系 统 的 环境 变量 PATH 中 (在 

文件 ~/.bash_profile 文 件 中 添加 export PATH= /bowtie—*.*.*; $PATH )。 

步骤 3 . 准备 参考 基因 组 。 在 bowtie 软 件 首页 上 点 击 Pre-built indexes 中 的 H.sapiens ， 

UCSC hg19 下 载 人 参考 基因 组 hg19( 人 参考 基因 组 hg19 共 2.7G ,建议 使 用 下 载 软件 下 载 ) (图 
6-21 )。 将 下 载 的 hg19.ebwt.zip 文 件 上 传 到 服务 器 ,使 用 unzip 将 其 加 压缩 。 


M TRECE ^ MS IN ENT 
4 4 T VK Mm dE PIS Ta NM A 
per err TA Laie Ady ep epi Pao d 


ae Se aaa ie 


E [TEES L/vookíny. indexes 


— - GTS eae Mima 
ie. S "on Ua Jet el ex i d AMET UE = " 





Er 783.66MB EBWT 文件 2012-4-10, 0:53 “rw 
fi hg19. 2. ebwt 341.10MB EBWT 文件 2012-4-10, 0:53 -rw 
(£j) hg19.3. ebwt 3KB EBWT 文件 2012-4-10, 0:53 -rw 
加 hel9. 4. ebwt 682.20MB EBWT 文件 2012-4-10, 0:53 -rw 
Ed] hg19. rev. 1. ebwt T83.66MB EBWT 文件 2012-4-10, 0:54 -rw 
£j) hg19. rev. 2. ebwt 341.10MB EBWT 文件 2012-4-10, 0:54 -rw 
i op OMA Palme se By hud OF ara. Me > 


图 6-21 人 类 hg19 参 考 基因 组 


步骤 4 : 执行 bowtie 命 令 ,将 短 序列 Read 定 位 到 参考 基因 组 上 。 在 控制 台中 输入 bowtie 命 
令 , 可 以 得 到 各 项 参数 设置 方式 ,对 于 单 末端 测序 的 数据 SRR192340 ,以 及 双 末 端 测序 数据 
SRR192333 执 行 命 令 及 结果 如 下 (图 6-22 )。 


[lirh20118vebserver book]$ bowtie -t /pub2/lirh2011/book/my indexes/hgl9 /pub2/lirh2011/book/data/SRR192340.fastq /pub2/lirh2011/book/data/ 
85192340. map | 

Time loading forward index: 00:00:01 ! 

Tine loading airror inex: 00:00:01 参考 基因 组 | | 单 末端 测序 文件 | | 输出 定位 文件 
Seeded quality full-index search: 00:45:46 

é reads processed: 27780649 

# reads with at least one reported alignment: 23007280 (82.8241) 

¢ reads that failed to align: 4773369 (17.184) 

Reported 23007280 alignments to 1 output stream(s) 


Time searching: 00:45:48 ki x : 双 末 端 测序 fastq 文 件 1 


Overall time: 00:45:48 


[Lirh2011@webserver book]$ bowtie -t --chunimbs 640 /pub2/lirh2011/book/my_indexes/hgl9 -1 /pub2/lirh2011/book/data/SRR192333_1.fastq -2 /pub 
2/lirh2011/book/data/SRR192333_2.fastq /pub2/lirh2011/book/data/SRR192333.map 


Time loading reference: 00:00:00 > 
Time loading forward index: x 00:02 
Time loading mirror index: 00:00:01 双 末 端 测 序 fastq 文 件 2 


Seeded quality full-index search: 04:23:49 

# reads processed: 28216213 
$ reads with at least one reported alignment: 14996877 (53.154) 
$ reads that failed to align: 13219336 (46.851) 

ported 14996877 paired-end alignments to 1 output stream(s) 
Time searching: 04:23:52 
Overall time: 04:23:52 





图 6-22 短 序 列 Read 定 位 到 参考 基因 组 
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其 中 参数 -t 显 示 运 行 时 间 , bowtie 默 认 的 最 大 存储 空间 为 64MB ,使 用 参数 ----chunkmbs 
可 增 大 内 存 。 

从 运行 结果 可 以 看 出 短 序列 匹配 到 参考 基因 组 上 的 比率 分 别 为 82.82% 和 53.15%。 对 于 
匹配 率 较 低 的 情况 ,一 般 是 由 于 5” 和 3” 末端 测序 质量 不 高 导致 的 ,可 以 使 用 参数 -5 和 -3 去 
BRS” AZ” 末端 部 分 碱 基 。 

步骤 $ : 使 用 less SRR192340.map 浏 览 输出 定位 文件 的 内 容 ( 图 6-23 )。 


{Lirh201i@webserver data]S$ less SRR192340.map 
39032325 GCICAGCT 


» 3$: 
SRR192340.2 HWI-EAS266:3:1:0:488 Mme 133012738 
CCBBC 


CCBCBBACCCBCBBBBCCSBCC 
SRR192340.3 HWI-EAS266:3:1:0:380 gua; 2257 
B68?»«»A882?A»0A83B0^«9A 0 O:T>C,2:A>G 
SRR192340.4 dr 3:1:0:467 length=36 


39032325 


58R192340. 2 HWI-EAS266:3:1:0:488 length=36 * 133012738 CCICCGACTTIICGTTCITGATTAAIGAAAACATTCT 

SRR192340.1 HWI-EAS266:3:1:0:629 length=36 - 39032325 GCTICAGCTCAGACACCTGCAAGICTGTIGGCCCTAGG 
32AA76;:»3B88?«ABAAAABÓBBBBA?BBA 13:CoT 

SRR192340.2 HWI-EAS266:3:1:0:488 E + 133012738 CCICCGACITICGTICITGATTAATGAAAACATICT BBCCC 

CBBCCCBCBBACCCBCBBBBCCSBCCCCSBC 

5RR192340.3 HWI-EAS266:3:1: i 380 Lengehost + 2257 CCGCACCCAATTGGACCAATCTATCACCCTATAGAA BBA688A69»?858 

B6B?»«»A88??A»0ABBBO-79A 0:T»C,2:A»G 


SRR192340.4 HWI-EAS266:3:1: o: 467 1engrh=35 2229 AAAAAT GAACTCCTCACACCT 2C»CCCCCCCCCC 
CCCCCCCCCCCCCCCCCBCAC; ? C»T,20: ar 


图 6-23 bowtied#r H . mapt fF $$ P3 È 





文件 第 1 列 是 ID 和 长 度 信息 ,第 2 列表 示 匹 配 在 正 链 (+ ) 还 是 负 链 ( ) 上 ,第 3 列表 示 匹 
配 的 染色 体 , 第 4 列表 示 匹 配 的 起 始 位 置 ,第 5 列 是 Read 序 列 ,第 6 列 是 质量 数 , 第 7 列表 示 有 多 
少 条 序列 以 相同 的 错误 率 匹 配 在 该 位 置 ,0 表示 这 条 Read 是 该 位 置 的 最 佳 匹 配 。 关 于 该 文件 
格式 的 详细 描述 请 参考 : http: //bowtie—bio.sourceforge.net/manual.shtml#default—bowtie—output s 

步骤 6 : bowtie 还 可 以 产生 SAM 格 式 的 输出 文件 (图 6-24 ), 适 用 于 其 他 文 持 SAM 格 式 
文件 的 软件 进一步 分 析 。 对 于 单 末端 测序 数据 SRR192340, 执 行 命令 bowtie -t -S --sam- 
nohead ——sam—nosq hgl9 SRR192340.fastq SRR192340.sam, 其 中 参数 -S/--sam 代表 以 sam 
格式 输出 定位 结果 ,在 后 面 加 入 --sam-nohead 来 去 掉 所 有 的 SAM 表 头 , ——sam-nosq? Æ fii 
有 @SQ 的 表 头 (例如 某 个 序列 比 对 到 了 参考 基因 组 的 许多 位 置 )。 

对 于 双 末 端 测序 数据 SRR192333, 执行 命令 bowtie -t -p 8 -I 200 -X 1000-S --sam- 


[lirh2011Qwebserver data2]$ head -400000 /pub2/lirn2011/book/data/SRR192333 1.fastq > /pub2/lirh2011/book/data2/5RR192333 1.f 
astq 
[lirh2011Gwebserver data2]$ head -400000 /pub2/lirh2011/book/data/SRR192333 2.fastq > /pub2/lirh2011/book/data2/SRR192333 2.f 
astq 
[lirh2011Qwebserver data2]$ head -400000 /pub2/lirn2011/book/data/SRR192340.fastq > /pub2/lirh2011/book/data2/SRR192340.fastq 
(lirh2011Gwebserver data2]$ bowtie -t -p 8 -I 200 -X 1000 -S --sam-nohead --sam-nosq --chunkmbs 640 /pub2/lirh20i1/book/my in 
dexes/hgi9 -1 /pub2/lirh2011/bock/data2/SRR192333 1.fastq -2 /pub2/lirh2011/book/data2/SRR192333 2.fastq /pub2/lirh2011/book/ 
data2/5RR192333.sam 
Time loading reference: 00:00:25 
Time loading forward índex: 00:00:06 
Time loading mirror index: 00:00:16 
Seeded quality full-index search: 00:00:13 
$ reads processed: 100000 
$ reads with at least one reported alignment: 47707 (47.71%) 
$ reads that failed to align: 52293 (52.291) 
Reported 47707 paired-end alignments to 1 output stream(s) 
ime searching: 00:01:01 
Overall time: 00:01:01 
[lirh2011Gwebserver data2]$ bowtie -t -S --sam-nohead --sam-nosq /pub2/lirh2011/book/my indexes/hg19 /pub2/lirh2011/book/da 
ta2/SRR192340.fastq  /pub2/lirh2011/book/data2/SRR192340.5am 
ime loading forward index: 00:00:02 
ime loading mirror index: 00:00:01 
Seeded quality full-index search: 00:00:10 
# reads processed: 100000 
# reads with at least one reported alignment: 82582 (82.58%) 
# reads that failed to align: 17418 (17.42%) 
Reported 82582 alignments to 1 output stream(s) 
Time searching: 00:00:14 
Overall time: 00:00:14 





图 6-24 ” bowtie 输出 .sam 文 件 
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nohead —-sam—nosq hg19 -1 SRR192333 1.fastq -2 SRR192333_2.fastq SRR192333.sam, 其 中 
参数 -I 表示 paired end 所 测 两 序列 的 最 短 距离 ( 含 两 序列 长 度 ), 本 例 中 , 双 侧 序列 都 为 75bp， 
内 部 空缺 序列 为 50bp, 因 此 选 200 ; -X 指 定 paired end 所 测 两 序列 的 最 长 距离 ,考虑 到 可 变 前 
切 跨越 外 显 子 ,本 例 中 我 们 选择 1000。 当 使 用 多 核 CPU 时 ,可 以 使 用 -p 参 数 指定 使 用 多 少 线 
程 计 算 。 为 缩短 运行 时 间 ,我 们 只 选取 fastq 文 件 的 部 分 read 进 行 参考 基因 组 定位 。 

输出 的 sam 格 式 文件 如 下 (图 6-25 ): 











(lirh20li@Webserver data}$ less SRR192333.sam 
SRR192333.1' HWUSI-EAS1671 0001:5:1:1022:10290 length=75 77 * 0 


0 * * 0 0 NCCAC 
CIACGATGCCATGGATGGGCAGATACAGGGCAGCGIGGAGCAGGCAGGCCAAGGNNNGGNNAAGGAAG $$$$53334 513 1E 8E EE EE E EE EE EE EE EE EE E EE EEHEEHE EE 
1313133535353 $03 555 $E HG XM:i:0 


S5RR192333.1 HWUSI-EAS1671 0001:5:1:1022:10290 length=75 141 * 0 0 * ¥ 0 NGCAG 
NNNNNAGGACINNNNNNNNNNGCINNNNCNNGNNCCTCCTCTGGAGCAAAACATGACCGGCGTITGGGG $$$$8$533 3 EE EE EE EE EE EE EE EE EE EE EE E EE E EE ES EE EE E GG 











CT 

PSESESEEEESEEEEEE LE GG XM:1:0 

SRR192333.2 HWUSI-EAS1671 0001:5:1:1022:15574 length=75 77 * 0 0 * * 0 0 NCAAG 

CAGGCCCCCACCTGCCCITAGTGATGTTTGGAGTCGTTITTACCCTCTTCTATTGAANNNCCNNGGGATTT $$EEESESEEEEEEEEEEEEEE EE EE EE EE EE EE EE EE E E B D UU 

$$$5EEE5EEE EE EE EE EE E GG XM:i:0 

SRR192333.2 HWUSI-EAS1671 0001:5:1:1022:15574 length=75 141 * 0 
GCNNNNGNNGNNAGGCAGCCTT 


0 * * 0 0 NTGCT 
CTACCATTICCICAGCAACAGAGG HHHIIBEEEEEEEEEEEEEEEEEEEEEEEEEEE EE EE EE EE EE E F 






CANNNNITTTICNNNNNNNNINT 
SFssSsFSEESESSETETELSESE XM:i:0 
SRR192333.3 HWUSI-EAS1671 0001:5:1:1022:17688 length=75 77 * 0 0 * * 0 0 NAAGG 

GGAGCCAAGGCACTICT GGGCAGCTTCATCAGCTACTGITCTTGGNNNAACNICCTGAG #+++++*) )) :76: :AAAAAAAAAAAAS7AAAAAAT7AAAAAAAAA78A7A 
MARAS SESSESSESESESES XM:i:0 
51192533. 3 HWUSI-EAS1671 0001:5:1:1022:17698 length=75 141 * 0 
! TGNNNNTNN 


0 * - 0 0 NAGGA 
CCAAGANNNNNNNNTNAT CNNGAAGTGCCTTGGCTCCAGCCCTGTACCCCTTGAG PEERESEESEEEEEEEEEESEEEE IEEE EE EE EE EE E EE EE EE E E E  G O 
pp XM:i:0 
























SRR192333.4 HWUSI-EAS1671 0001:5:1:1022:4778 length=75 77 * 0 0 0 0 NITGA 

TICAAGTICCTIGGATCCTATCCTGACTIGGACATITAGGCAAGAGCTAACTTGGGNNNAGNNITAACTTI f((('*****AA666,*3,3333,375868AAAA65553-A56A0A8AA6 

RASSASSSSSFSESESFESESES ES XM:i:0 

icta x HWUSI-EAS1671.0001:5:1:1022:4778 length=75 141 w 0 多 NGGAC 
GNTACNNNNGNNANNGTGGAGAAT P PEN FRMIPL ACRI AUN DSEUNE.. ANB re 
















1 
IHHHHMHHHHHUBAH 





XM:í:0 


图 6-25 “bowtie 输 出 .sam 文件 的 内 容 


其 中 第 1 列 是 ID ,第 2 列 是 该 序列 满足 各 标签 代表 数字 的 和 ,具体 如 下 : 


oa 

De NE 
2 | 这 个 比 对 是 一 个 合 are end 比 对 的 一 个 末端 
ie 


这 个 read 没 有 匹配 上 


read 是 一 个 pair 中 的 一 个 ,并 且 没 有 匹配 上 


16 | 匹配 到 负 链 上 了 
在 paired end 比 对 中 的 男 一 条 序列 匹配 到 参考 基因 组 的 负 链 上 


在 一 个 pairedread 第 一 个 (#1l ) 
在 一 个 pairedreadq 第 二 个 (把 ) 





其 他 列 代表 含义 请 参考 


http: //bowtie—bio.sourceforge.net/manual.shtml#default—bowtie—output o 


DO SRNASERRAL EMMA HMMA >>> 


HR AT op Hat A(X RE HBG BE x [vr 89 25 SETA 2B, ER SE S A FS AB FB) ef AURI 
删除 等 信息 ,以 下 分 六 个 步骤 介绍 TopHat 软 件 的 安装 、 应 用 以 及 结果 的 可 视 化 。 
步骤 1 : 访问 TopHat 软 件 网 站 http: //tophat.cbcb.umd.edu/index.html( 图 6-26 ), 下 载 软件 。 
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i opheat EI bes hint 


TopHat 2.0.0 release 4/09/2012 

























Version 2.0.0 i$ a major release adding Bowtie 2 support, better parallekzaoon and the abéty to abgn Home = 
RNA-Seq f 
-Sea reads across potential fusion points 5 started ^ 
TooHat now uses Bowtie? by default (f found m the erstem) although it can also fall back on Bowtie 


- Manual 
' [] ^, 
1 (wtwch n stiff requred for SOLO reads) " » d dowrlondis 
Bowte 2 ntegrabon features Prot 


* most of the optional SAM fields (AS, MD, NM. and etc.) generated by Bowtie 2 are now reported 
by TopHat a6 wel (reconstructed as necessary 

" many of the Bowtie 2 options can now be drectiy given as TopHat options using --bJ-<bewtie Hee aed updates Le Ja ii 4 í 
option same». These apoi to intial read mappings. not to segment mappings - plesee see the 
comespondmQg manua! section 


Fuson mapping 


New releases and related tools wil be 
announced through the mailing fist 


TopHat 2 maps reads agamst transcnptome (optonal), genome. and novelkmown splice sites eng Ottog eto T q.- tx EX 一 - 
Bowtie 2 (or 1) m a fashion meant to increase the overall mapowig sensitrety and accuracy. In the 
case of Bowbe 2, reads poorly mapped in the mitai stages (with lower scoring alignments due to Questions about TopHat should be sent tc 


indels etc.) wil be made avaiable for ra-mappang m downstream stages. Ahgnments obtamed nal  tophat.cufflinks@qmail.com. Please do 
participating stages are pooled and the best abgnments will be finally reported for each read Please [ot emai technical questions to TopHat 
note that this TopHat version requires the instaltabon of Bowtie version 2.0.0-beta5 or tater; also contributors directly. 
note that &owDe] and Bowve2 indexes are different. sọ £ is necessary to use the new Bowtie 2 : —— ms - 
indexes with TopHat 2 (unless --bowtie1 option is used or bowbe 2 is not found in the system) seco BERE BOREAS LOSS 
the iGenome Bowtie indexes do not mncdude Bowtie 2 indexes, you may want to download Bowbe 2 
indexes from the Bowtie? website or buid them using bowtie? -Duld 

+ Most of the time-consuming steps in the TopHat 2 pipeline are now parallekzed, reducing the total 
running time substantially on multi-processor systems 
In addon to mapping across spice sites, TopHat 2 can now abon reads across fusion points, whuch 
usually occur due to genomic translocations, read-through transcription, or trant-sphong; Tophat 2 
integrates the fution discovery engine previously found m TopMat-Fusion. (fusion mapping is 


versión 2.0.0 (BETA) 4/09/2012 





opbonal, please see the separate page for fusion mapping and the -~ f52s156 options in the . e CREME D T. aie 
manual: Cuffhnks: isoform assembly and 
* Colorspace (SOLID) reads require the older version of Bowtie, since Bowtie 2 does not provide quantitabon for RNA-Seq 


support for thes kind of reads. Bowtie; Ultratast short read —À9À 


图 6-26 软件 tophat 首 页 


步骤 2 ; 安装 tophat。 将 下 载 的 tophat-2.0.0.Linux_x86_64.tar.gz 文 件 上 传 到 服务 器 ,使 用 
tar 命 令 将 文件 解压 缩 , 然 后 将 得 到 的 目录 tophat-2.0.0.Linux_x86_64 添 加 到 linux 系 统 的 环境 


变量 PATH 中 (在 文件 ~/.bash_profile 文 件 中 添加 export PATH= / tophat-2.0.0.Linux_x86_64 
$PATH )。 


步骤 3 : 准备 参考 基因 组 参考 基因 组 注释 文件 测序 数据 fastq 格 式 文件 ,并 上 传 到 服务 
髓 。 参 考 基因 组 文件 可 以 从 cufflinks 网 站 下 载 http: //cufflinks.cbcb.umd.edu/igenomes.html; 为 
了 计算 某 个 基因 或 某 个 转录 本 等 所 映射 的 read 读 数 , 可 以 从 Ensembl 数 据 库 中 下 载 基 因 组 注 
释文 件 ftp: //ftp.ensembl.org/pub/release—66/gtf/homo_sapiens/Homo_sapiens.GRCh37.66.gtf.gz.. 

步骤 4 : 执行 命令 定位 Read。 对 于 双 末 端 测序 数据 SRR192333 命 令 如 下 : tophat -p 
8 —r 50 -G Homo_sapiens.NCBI36.54.gtf -o SRR192333 hg19 SRR192333 1.fastq SRR192333 2. 
fastq, 其 中 , -r 50 表 示 双 末端 序列 间距 50 个 碱 基 ; -G 参 数 指定 基因 组 注释 文件 (图 6-27 )。 


{lirn2011 


rugged data2]$ tophat -p 8 -r 50 -G Homo sapiens.GRCh37.66.gtf -o SRR192353 /pub2/lirh2011/book/my indexes/hg19 
RR192333 1.fascq SRR192333 2.fastq 


(Wed Apr 11 14:20:35 2012] Beginning TopHat run (v1.3.3) 


[Wed Apr 11 14:20:35 2012] Preparing output location SRR192333/ 
(Wed Apr 11 14:20:35 2012) Checking for Bowtie index files 
[Wed Apr 11 14:20:35 2012] Checking for reference FASTA file 
Warning: Could nov find FASTA file /pub2/lirh2011/book/my indexes/hg19.fa 
(Wed Apr 11 14:20:35 2012] Reconstituting reference FASTA file from Bowtie index 
ecuting: /usr/local/bin/bowrie-inspect /pub2/1lirh2011/book/my indexes/hg19 > SRR192333/cmp/hg19.fa 
[Wed Apr 11 14:23:49 2012] Checking for Bowtie 
Bowtie version: 0.12.7.0 
[Wed Apr 11 14:23:49 2012] Checking for Samtools 
Samtools Version: 0.1.128 
(Wed Apr 11 14:23:49 2012) Generating SAM header for /pub2/lirh2011/book/my indexes/hg19 
[Wed Apr 11 14:25:25 2012] Preparing reads 
format: fastq 
quality scale: phred33 (default) 
(Wed Apr 11 14:25:25 2012] Reading known junctions from GIF file 
Left reads: min. length=75, count*99837 
Right reads: min. length=75, count=99625 
[Wed Apr 11 14:25:50 2012] Mapping left kepc reads against hg19 with Bowtie 
14:26:01 2012) Processing bowtie hits 
14:27:54 2012] Mapping left kept reads segl against hgl9 with Bowtie (1/3) 
14:28:00 2012] Mapping left kept reads seg2 against hg19 with Bowtie (2/3) 
14:28:06 2012] Mapping left kepc reads seg3 against hgl19 with Bowtie (3/3) 
14:28:12 2012] Mapping ríght kept reads against hgl58 with Bowtie 
14:28:23 2012] Processing bowtie hits- 
14:30:15 2012] Mapping right kept reads segl against hg19 with Bowtie (1/3) 
14:30:21 2012] Mapping right kept reads seg2 against hg19 with Bowtie (2/3) 
14:30:28 2012] Mapping ríght kept reads seg3 against hgi9 with Bowtie (3/3) 
14:30:34 2012) Searching for junctions via segment mapping 


14:32:13 2012] Retrieving sequences for splices 
14:37:04 2012) Indexing splices 


14:37:05 2012) Mapping left kept reads segl against segment juncs wich Bowtie (1/3) 
14:37:06 20212] Mapping left kepc reads seg2 ageinst segment juncs with Bowtie (2/3) 
14:37:07 2012] Mapping left kept reads seg3 against segment juncs with Bowtie (3/3) 
14:37:08 2012] Joining segment hits 

14:38:59 2012] Mapping right kept reads segl against segment juncs with Bowtie (1/3) 
14:39:00 2012] Mapping right kept reads seg2 against segment juncs with Bowtie (2/3) 
14:39:01 2012) Mapping right kept reads seg3 against segment juncs wich Bowtie (3/3) 
14:39:02 2012] Joining segment hits 

14:40:53 2012] 


titii 
富有 





图 6-27 执行 tophat 定 位 短 序列 
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对 于 单 末端 测序 数据 SRR192340 命 令 如 下 : tophat -p 8 -G Homo_sapiens.GRCh37.66. 
etf —o hg19 SRR192340.fastq. 

步骤 5 : 查看 结果 。tophat 输 出 的 主要 结果 包括 reads 在 参考 基因 组 上 的 匹配 列表 
accepted_hits.bam , 剪 切 方 式 文件 junctions.bed ,插入 和 删除 信息 deletions. bed 和 insertions.bed。 
其 中 , bed 文件 可 以 通过 UCSC Genome Browser( http: //genome.ucsc.edu/ EN 

步骤 6 : PJE BI HJIT SX XCfFjunctions.bed.. A Kbedt ist CPF AIT ZA TA V UCSC, 3 
A. XE Bt http: //genome.ucsc.edu/Jq ,点击 Cenome Browseri A , "aiino 下 拉 列 表 中 ,选择 
分 析 所 用 到 的 参考 基因 组 (图 6-28 ), 此 处 选择 hg19。 

点 击 add custom tracks 打 开 目 定义 轨道 管理 页 面 (图 6-29 )。 














Home Genomes i Tabies Gene rter Session FAQ 


AT FST Sapa 


The UCSC Genome Browser was created by the Genome Brounfoemates Gr 
Software Copyright (c) The Re dl Seer sce Cp emen 
clade 


{Mammal x] [Human 





About the Human Feb. 2009 (GRCh37/hg19) assembly (sequences) | 


The February 2009 human reference sequence (GRCh37) was produced by the Genome Reference Consortium. 
For more information about this assembly, see GRCh3? in the NCBI Assembly database 


Sample position queries 
A genome position can be specified by the accession number of a sequenced genomic clone, an mRNA or EST or 


STS marker, a chromosomal coordinate range, or keywords from the GenBank description of an mRNA. The 
following list shows examples of valid position queries for the human genome. See the User's Guide for more 





information. 

Request: Genome Browser Response: 

chr? Displays all of chromosome 7 

chrUn g1000212 Displays all of the unplaced contig 21000212 

20p13 Displays region for band p13 on chr 20 

chr3:1-1000000 Displays first million bases of chr 3, counting from p-arm telomere 

chr3:100000072000 BW. a LEICA LL FL a aang a poskien 1000009 到 


rae Tr SES PR y 


图 6-28 ”UCSC 数据库 Genome Browser Jl if 


Genome Browser Biat 


clade|Mamma! Æ] genome Human Æ] assembly | Fen. 2009 (GRCh37m919) X] 


Display your own data as custom annotation tracks in the browser. Data must be formatted in BED, bigBed, bedGraph, GFF, GTF, WIG, big Wig, MAF, BAM, 
BED detail, Personal Genome SNP, VCF, or PSL formats. To configure the display, set track and browser line attributes as described in the User's Guide URLs 
for data in the bigBed, big Wig, BAM and VCF formats must be embedded in a track line m the box below. Publicly available custom tracks are listed here 
Examples are here 


Paste URLs or data 





Click here for an HTML document template that may be used for Genome Browser track descriptions 


Loading Custom Tracks "t 
| An annotation data file in one of the supported custom track formats may be uploaded by any of the following methods 


到 
LEER PIT ETE FS ep iets Pe ee 7 





~-- 一 一 -- 一 -一 一 一 





图 6-29 UCSCP Rw A x3 5 
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点 击 浏览 选择 tophat 输 出 的 junctions.bed 文 件 , 按 submit 提 交 , 会 显示 在 轨道 管理 页 面 
(图 6-30 ). 

点 击 go to genome browser 回 到 Genome Browser 页 面 。 在 基因 组 图 的 上 方 出 现 TopHat 
junctions 的 图 示 , 页 面 下 方 目 定义 轨道 Custom Tracks 里 面 有 junctions 选 项 ,选择 full, Genes 
and Gene Prediction Tracks 里 面 的 Human ESTs, Spliced ESTs 都 选择 dense ,点击 右 侧 的 refresh 
(图 6-31 )。 





POCA A RAN NP UNIT A EE EL LOR ARMIN a4 TAIN SS Saee HC a e RN (UTR Air3 NEL WE OE OI oR 
tp (i genome. wese. edu/ cgi ~bin/ het a 
AI NNO AMORA UM "ANOS EN qm 


^ Custom Tracks — ， à j p 





Hóme Genomes Genome Browser Blat Tables 


| genome: Human assembly: Feb. it sarei et 2 | 
| 
| 








Name | Description Type Doc Items Pos | dei € bits 





| Managing Custom Tracks —— 


This section provides a brief description of the columns in custom track management table. For more details about managing custom tracks, see the Genome Browser 
User's Guide 
* Name - a hyperlink to the update page where vou can edit your track data. | 
* Description - the value of the "description" attribute from the track line, if present. If no description is included in the input file, this field contains the track | 
name 
* Type - the track type, determined by the Browser based on the format of the data. 
* Doc - displays "Y" (Yes) if a description page has been uploaded for the track; otherwise the field is blank 
* Items - the number of data items in the custom track file. An item count is not displayed for tracks lacking individual items (e.g. wiggle format data). 
* Pos - the default chromosomal position defined by the track file in either the browser line "position" attribute or the first data line. Clicking this link opens the 
Genome Browser or Table Browser at the specified position (note: onlv the chromosome name is shown in this column). The Pos column remains blank if the 
track lacks individual items (e.g. wiggle format data) and the browser line "position" attribute hasn't been set. 





图 6-30 轨道 管理 界面 






noe P wser vet Windows Internet plorer 

PAE NEEE E ON, UNT A VN AE ma AL RU n Le VIE UNI. MN EAE. o grew pes) Wm er anaua OA A SURAN EE A ecm 
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tenons Were eda bin/heTracks 











Nen. chr20; v UCSC Genome, 


Genomes Biat Table ne Sorter PCR DNA “onNnvert 


UCSC € Genome Browser on Human — Ead (GR 


TINANA ana TUCP transo dots 
Muman SPAS from De 


Waan ESTs That Have Geen Spliced 


Human E$Ts Ine hed 






insp ! i cea 


m 


timp le Mucteot ie @ A itin (Gere 195) Found in >s 17 Of Samp ies 
LI 


pones onse Click on a feature for details. Click or drag in the base position track to zoom 
mz - "aide: in. Click side bars for track options. Drag side bars or labels up or down to 
— reorder tracks. ph hones eh cas 





a Want | mitage cee vaatiin ees 
Tracks with lots of items will automatically be displayed in more compact modes. 


Custom Tracks 






Mapping and Sequencing Tracks 


图 6-31 TRAY Ww A, X fF junctions. bed 
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可 以 通过 上 方 的 工具 条 move, zoom in 以 及 zoom out 可 以 移动 .放大 和 缩小 图 示 ,方便 浏 


览 。 例 如 ,点 击 两 次 页 面 上 方 右 侧 zoom out 10x 按 钮 ,使 基因 组 的 显示 范围 增 大 100 倍 ,如 下 
(图 6-32 )。 


ra meri Ea 


move stent Click on a feature for details. Click ox drag in the base position track te zoom 
BEES me in. Click side bars for track options. Drag side bars or labels ap of down to " ; 
reorder tracks. Drag tracks left or right to new position. 
tren | ana | stu | nore | mason ment | tots | coon mene | mos | emm] 
drop-down comes below and press refresh to alter wacks ásplaved. 
Frege Cem emp EE in more compact modes. 


Castom Track 


Mapping amd Sequencing Tracks 





图 6-32 MX 340 38, B 


页 面 显示 了 20 号 染色 体 第 248 377 个 碱 基 到 第 267 276 个 碱 基 范围 的 基因 组 图 。 其 中 包 
含 3 个 由 TopHat 软 件 估计 出 的 剪 切 方式 ,与 已 知 的 剪 切 方式 相同 。 


五 ,数字 基因 表达 谱 提 取 >>> 


软件 cufflinks 能 够 根据 tophat 软 件 得 到 的 短 序列 在 参考 基因 组 中 的 定位 信息 以 及 基因 在 
参考 基因 组 中 的 注释 文件 ,计算 出 基因 的 数字 表达 谱 , 同 时 还 能 计算 不 同样 本 间 基 因 、 转 录 
本 等 的 差异 表达 ,识别 选择 性 剪 切 等 。 以 下 分 七 个 步骤 介绍 cufflinks 的 下 载 、 安 装 及 应 用 。 

步骤 1 : 访问 Cufflinks 软 件 网 站 http: //cufflinks.cbcb.umd.edu/, 下 载 软件 (图 6-33 )。 


— UB Ttt ms m ne emi ntm 一 一 er- ek Re a IA er SF 
+) Tr ein he) - m 
Exe Je acr 1 rion tc a A TNT 
“所 tz . ot © TAI 
xe {cure Cefflinks - tr: 97 24:57 00779 Sc 





d TopHat and Cufflinks protocol published at Nature Protocols - 3/12/2012 
A complete bioinformatoc protocol for analysis of RNA:/Seg data using our tools has been pubkshed at . x : 
Nature Protoco'«, The protocol covers read alignment with TopHat., gene and transcnpt discovery with ` | 
J 





Getting started 
Cufflinks, annotation analvers with Cuffmerge and Cuffcompare, differential expression analyses with Mar 
Cufidi! and visuahlrabon with CummeRbund. Several vanants of the protocol are included for those who How Cuffiniks à 
t er such Ye discovery and annot 
wish to forgo certam analys steps, such as gene d en Index ation dovinioddis 
FAQ 
^ 1.3.0 retease - 1/2/2012 


Protocol 
Thes release emproves the accuracy of Cuffdilff s soform swetciung tests and fes severa bugs 


Gid fied genes that are differentially apkced or switch promoters between conditons using the Mewes eet ose ę Dam SREY Peden 

Jensen-Shannon distance metrit Previous versions of Culte tested for the signhcance of observed > , 
New releases and related tools wil be 

shifts in relative soform abundance using an analytt approsmation of the variance of this metric for ehr the list 

each gene. However, when few repbicates are av adable or sequenaong is shallow. fus approximation 9 


can be poor. Thus release improves Cuffdiff' s accuracy with e computsbonal-denved estimate of the ri 


Cc 72 E —- 
variance of the Jensen-Shannon metric by sampling in each gene. This morovement substantiali tinis 、 
reduces the tatee postre rate of Cuffdiif s tects in splicing. diff. promoters. aiff, anc cde. 2: fT Questions about Cuffiics shouid be sent 
Tests for changes in giobal expression are not affected to tophat.cwfflinksd gmail.com. Please do 
A bug m Cuffmerge that caused a crash wath a warning about moroper sorting of SAM files has been Mot email technical questions to Cufflinks 
corrected contributors drecty. 
4 bug that caused Cuffmerge to drop some reference transenots from the output has been fed _ _ _ 
» à tew mnor ittues with Culfimks' pre-aesemblv alignment filters have been fred Basses he 
verpon 1.3.0 1/2/2012 
1.20 release - 11/22/2011 ERES 
Tres release fies a amber of bugs and indudes some sgnficart accuracy and performance 
ampr o verments 





Some users were experwenong a large matbar of genes or transcripts marked FALL dunno Cult 
runs or Cuffinks guarntf£icabon curt. These were caused my one of several sues Most of these 


‘ at NM CO pen Te a 





genes were due to numeral exceptions generated dunno moortance tamping, a procedure Bx . —— 
" " CummeRbund: Visualization of RNA-Seq 
onginally intended to improve accuracy of abundance estimates in genes with one or more very love v of 
: dflerential analygs 
abundance isoforms. After detaded simulation experiments. we have conciuded that the gains m 
acourac, are mnor and do not psoty | the number of geoes that FAIL when thes eee < ant be TopHat: Alignmart of s Sapa xj 


图 6-33 Cufflinks # FË 
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步骤 2 : 安装 cufflinks。 将 下 载 的 cufflinks-1.3.0.Linux_x86_64.tar.gz 文 件 上 传 到 服务 器 ， 
使 用 tar 命 令 将 文件 解压 缩 ,然后 将 得 到 的 目录 cufflinks-1.1.0.Linux_x86_64 添 加 到 linux 系 统 


的 环境 变量 PATH 中 (在 文件 ~/.bash_profile 文 件 中 添加 export PATH= / cufflinks—1.1.0.Linux_ 
x86_64 : $PATH ). 


步骤 3 : tophat 的 输出 结果 已 经 排 好 序 了 ,对 bowtie 输 出 的 SAM 文 件 需 要 使 用 sort 命 令 根 
据 染 色 体 和 位 置 进 了 排序 (图 6-34 )。 


步骤 4 : 运行 cufflinks 程 序 ,提取 基因 数字 表达 谱 , 通 过 -o 参 数 指 定 输出 目录 。cufflinks 


—o cufflinks_result/SRR 192333 bu ni, lb pad , HH eufflinks_result/SRR 192333 
是 指定 的 输出 目录 (图 6-35 )。 


[14zh20116webasezVer data2]$ sort -k 3,3 -k 4,4n SRRi9$2333.sam>SRRi92333.sam.sorted 
(1lirh20110webserver data2]§$ less SRR192333.sam.sorted 
SRR192333.85821 99 chri 14580 255 75M - 14729 224 CGCTGGITCCGTCACCCCCTCCCAAGGAAGTAGGICIGAGCAGCT 
TGTCCTGGCTGIGICCATGTCAGAGCAACG CCCCCCCCCCCCCCCCCCBBBBBBCCCCCCBCCCACCCCCCCCCCCADCCCCBBCC? 8?8CBCBBDDD : BABGBB XA:1:1 MD 
:2:0T74 NM:í:1 


SRR192333.85821 147 chri 14729 255 75M = 


14580 -224 CIGTGGCTGCTGCEGTGGCGGCAGAGGAGGGATGGAGTCTGACAC 
GCGGGCAAAGGCTCCTCCGGGCCCCTCACC 


$$26A75077 (2 (C>ABBBBA=8@3BABBBD>>ABGGB ?7A2BEBABBDCCCCCDCACACD@CACCCCCCCCCBCC XA:i:0 MD 
22:75 NM:í:0 
5RR192333.97584 99 chri 461376 255 75M = 


461507 206 CCGTGCITITCCCAAAGGITGTCTGGGGACCTCAGTAAGTAAAGG 
GGAGAAGIGIGGGTGTTGGGGAAAGGGGAA CCCCCCCCCCCCCCCCCCDCCCCCCCCCCCDCCCCDCCCBCDDCCCDBCBG CBCDCAAACBABBBDAA?DBBB?? XA:i:1 MD 
:2:17A57 NM:í:1 


SRR192333.97584 147 chri 461507 255 75M - 461376  -206 TITGGTCAGCGTTICACTGAATACACATTITACATGTGATGGAGGT 
AGAGGCAGGGATGTAGCITITITATCTITG BDBDDBDBCDBCBCBBCCCCC»CDCCCCCCDCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCBBBCCCCCCCCCCC XA:1:0 MD 
72:78 NM:i:O 


5RR192333.17593 99 chri 564464 255 75M - 
GCCCCTTCGCCCTATTCTTCATAGCCGAAT 
:2:75 NM:1:0 


564603 214 GGGAGTCCGAACTAGICTCAGGCTTICAACATCGAATACGCCGCAG 
CCCCCCCCCCCCCDCCCCCCCACCCCCCCCCCCAACCCBCCBCCDACCCCGBCBBCB=>>GB=BCB>>8CCB?. ? XA:i:0 MD 





图 6-34 排序 bowtie 输 出 的 sam 文 件 






[1irh2011Qwebserver data2]$ cufflinks -o cufflinks result/SRR192333 SRR192333/accepted hits.bam 
cufflinks: /usr/lib64/libz.s0.1: no version information available (required by cufflinks) 


[15:48:05] Inspecting reads and determining fragment length distribution. 
> Processed 38711 loci. 


> Map Properties: 
> Total Map Mass: 87413.95 
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> Read Type: 72bp paired-end 

> Fragment Length Distribution: Gaussian (default) 
> Estimated Mean: 208.93 

> Estimated Std Dev: 70.97 





(15:48:21] Assembling transcripts and estimating abundances. 
> Processed 38711 loci. 
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图 6-35 运行 cufflinks 提 取 基 因 表 达 谱 


AP URS : cufflinks 输 出 3 个 文件 ,提供 了 不 同 水 平 的 表达 transcripts.gtf( 图 6-36 )、isoforms. 
fpkm_tracking 和 genes.fpkm_tracking( 图 6-37、 图 6-38 )。 其 中 transcripts.gtf 记 录 的 是 cufflinks 
装配 的 异 构 体 ， genes.fpkm_tracking#llisoforms.fpkm_ tracking 分 别 记 录 了 以 基因 为 单位 和 以 转 
录 本 为 单位 的 数字 基因 表达 值 FPKM。 文 件 内 容 的 详细 说 明 请 参考 http: Wcufflinks.cbcb.umd. 


edu/manual.html#cufflinks_output. 






(lirh2011@webserver SRR192333]$ less transcripts.gtf 


chri Cufflinks transcript 568468 568845 1000 è gene id "CUFF.47"; transcript_id "CUFF.47.1"; FPKM "1303.94880 
72042"; frac "1.000000"; conf lo "1231.728345"; conf hi "1376.169270"; cov "16.422596"; 


* 
chri Cufflinks exon 568468 568845 1000 ° gene_id "CUFF. 47"; transcript_id "CUFF.47.1"; exon number "1"; FPKM "1 
303.9488072042"; frac "1.000000"; conf lo "1231.728345"; conf hi "1376.169270"; cov "16.422596"; 
chri Cufflinks transcript 1717098 1718264 1000 ° è gene id "CUFF.295"; transcript_id "CUFF.295.1"; FPKM "135.6913 
207871"; frac "1.000000"; conf lo "112.393997"; conf hi "158.988644"; cov "1.710766"; 
chri Cufflinks exon 1717098 1718264 1000 " gene id "CUFF.295"; transcript id "CUFF.295.1"; exon number "1"; FPKM 
"135.6913207871"; frac "1.000000"; conf 1o "112.393997"; conf | hi ^158.988644"; cov "1.710766"; 
chrl Cufflinks transcrípt 8022872 8045216 1000 * " pes id "CUFF.587"; transcript_id "CUFF.587.1"; FPKM "198.9534 
282041"; frac "1.000000"; conf lo "170.743258"; conf hi "227.163599"; cov "2.608696"; 


chri Cufflinks exon 8022872 8022935 1000 + gene id "CUFF.527"; transcript_id “CUFF.587.1°; exon number "1"; FPKM 
"198.9534282041"; frac "1.000000"; conf lo "170.743258"; conf hi "221.163599"; cov "2.608696"; 


chri Cufflinks exon 2025384 £025485 1000 + gene id “CUFF.587"; transcript_id "CUFF.587.1"; exon number "2"; FPKM 
"198.9534282041"; frac "1.000000"; conf 1o "170.743258"; conf | hi "227.163599"; cov "2.608696"; 


chri Cufflinks exon 8029405 $029464 1000 * gene id "CUFT.527"; transcript id "CUFT.5£7.1"; exon number "3"; FPEM 
"198.9534282041"; frac "1.000000"; conf lo *170.743258"; conf | hi "221.163599"; cov "2.608696"; 


chri Cufflinks exon 8030954 8031023 1000 * . gene id CUT. S87"; transcript id "CUFF.587.1"; exon number "4"; FPKM 
*19£.9534222041"; frac "1.000000"; conf lo "170.743258"; conf hi "227.163599"; cov "2.608696"; 


chri Cufflinks exon 8037712 $037798 1000 * gene id P CUFT. 587"; transcript id “CUFF.587.1°; exon number "S"; FPKM 
"198.9534282041"; frac "1.000000"; conf lo "170.743258"; conf | hi "227.163599"; cov "2.608696"; 


chri Cufflinks exon 8044954 2045216 1000 + gene id P CUT. 587"; cranscript íd “CUFF.587.1"; exon number "6"; FPKM 
"198.95342£2041"; frac "1.000000"; conf lo "170.743258"; conf | hi "221.163599"; cov "2.608696"; 



































图 6-36 cufflinks4r : fj transcripts. gtf 





chr left right FPM FMI frac FPKM conf lo 


FPEM conf hi 


568467 568245 1303.95 1 
1717097 1718264 135.691 1 
$022871 8045216 198.953 1 
9789110 9790022 190.437 1 
20520705 20521599 
22418532 22419430 
24019108 24022902 
26801673 26802409 
32508152 32509440 1 
33238459 33239830 1 
36552558 36553234 1 
38023237 38030745 . 1 

1 

1 

1 


1231.73 1376.17 16.4226 378 307 

112.394 158.989 1.71077 1167 1096 

170.743 227.164 2.6087 646 575 

162.837 218.037 2.40785 912 841 
139.001 1 115.422 162.581 1.64034 894 
179.828 1 153.008 206.648 2.26723 898 
1333.49 1 1260.44 1406.51 15.8266 560 
143.112 1 119.186 167.038 1.80948 736 
112.8 91.5507 134.042 1.47905 1282 
180.155 153.31 206.999 2.18504 1341 
160.149 214.927 2.23547 681 
175.133 232.219 2.15704 745 
119.081 166.914 1.6875 871 
158.212 212.684 2.05167 1058 
510.174 604.611 6.61253 502 
496.013 589.188 6.64032 324 
762.219 876.724 9.75008 420 
230.293 295.127 3.2881 1029 
1616.91 1781.81 20.5394 1276 
292.563 365.097 3.85779 732 
331.043 407.931 4.09297 814 
388.849 471.827 5.13883 709 


43391912 
44088162 
45241715 
45976761 
45980564 
46085719 
46646211 
47264746 
47219896 
47284301 


43392723 
44089220 
45243800 
45977085 
45987546 
46087106 
46651628 
47279685 
47284135 
47285010 


557.393 

542.6 i 
819.471 1 
262.71 1 
1699.36 1 
328.83 1 
369.487 1 
430.338 1 
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图 6-37  isoforms.fpkm. tracking X: # A 


chr 
568467 
chr1 
chri 
chr1 


left right  FPKM FPKM conf lo status 
566645 1303.95 1231.73 1376.17 OK 

1717097 1718264 135.691 112.394 158.989 OK 

8022871 8045216 198.953 170.743 227.164 OK 


9789110 9790022 190.437 162.837 218.037 OK 


FPKM conf hi 


cari 
chri 
chri 
chri 
chri 
chr1 
chri 
cari 
chri 
chri 
chri 
chri 
chri 
chr1 
chri 
chri 


20520705 
22418532 
24019108 
26801673 
32508152 
33238489 
36552558 
38023237 
43391912 
44088162 
45241715 
45976761 
45980564 
46085719 
46646211 
47264746 


20521599 
22419430 
24022902 
26802409 
32509440 
33239830 
36553834 
38030745 
43392783 
44089220 
45243800 
45977085 
45987546 
46087106 
46651628 
47279685 


139.001 
179.828 
1333.48 
143.112 
112.8 
180.155 
187.538 
203.676 
142. 
185. 
557. 
542. 
819. 
262. 
1699.36 
328.83 


115.422 
153.008 
1260.44 
119.186 
91.5587 
153.31 

160.149 
175.133 
119.081 
158.212 
510.174 
496.013 
762.219 
230.293 
1616.91 
292.563 


162.581 
206.648 
1406.51 
167.038 
134.042 
206.999 
214.927 
232.219 
166.914 
212.684 
604.611 
5289.188 
876.724 
295.127 
1781.81 
365.097 





图 6-38 genes.fpkm_tracking x: fF A È 


步骤 6 : 重复 步骤 1 到 4, 人 处 理 测序 数据 SRR192336。 
步骤 7 : faj t Hy 2 RE AED ie. (E HicufflinksfX fF Bcuffdiffi 4 BE 92 TT 53-25 5t 3€ 3 HJ 
基因 、 转 录 本 、 选 择 性 剪 切 、 局 动 子 ,以 健康 样本 GSM718707 的 数据 SRR192333, 与 肺癌 样本 
GSM718710 的 数据 SRR192336 为 例 ,基于 tophat 得 到 的 结果 ,运行 cuffdiff 命 令 cuffdiff Homo_ 
sapiens.GRCh37.66.gtf SRR192333/accepted_hits.bam SRR192336/accepted_hits.bam 运 行 结 果 分 
为 四 种 类 型 . 四 个 水 平 的 表达 数据 ,转录 本 表达 isoforms.fpkm_tracking .基因 表达 genes.fpkm_ 
tracking 、 编 码 序 列表 达 cds.fpkm_tracking 以 及 初级 转录 本 表达 tss_groups.fpkm_tracking; 对 应 
四 个 水 平 的 差异 表达 检验 数据 isoforms_exp.diff、 genes exp.diff 、cds_exp.diff 以 及 tss_groups_ 
exp.diff; 一 个 差异 剪 切 数据 splicing.diff: 差 异 编码 数据 cds.dift: 以 及 差异 局 动 子 数据 promoters. 
dif。 每 个 文件 内 容 格 式 详细 说 明 Whttp: //eufflinks.cbeb.umd.edu/manual.html#cuffdiff_output o 
xX DO 4S AAP B5 25 AS BUR s LI FG MNT tes BS B) 25 RI IA ik DAT Be Fe 99 0] ,根据 需要 可 以 解 
下 再 进行 功能 分 析 等 。 
(uF FR SRE 李 RK) 
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CHAPTER 7 


FER WATE MY ei Sh 2r T 


BIOINFORMATICS ANALYSIS ON 
TRANSCRIPTION REGULATION 


基因 表达 是 指 细胞 在 生命 过 程 中 ,把 存储 在 DNA 中 的 遗传 信息 经 过 转录 、 剪 接 、 
翻译 以 及 翻译 后 修饰 等 过 程 , 转 变 为 具有 生物 活性 的 蛋白 质 分 子 。 作 为 基因 表达 过 
程 的 第 一 步 , 转 录 在 基因 表达 过 程 中 起 到 了 至 关 重 要 的 作用 。 哺 乳 动物 有 机 体 约 含 
30 000~40 000 个 基因 ,它们 是 如 何在 适当 的 空间 和 时 间 进 行 转录 调控 的 ,转录 因子 
( TFs ) 是 如 何在 这 些 差异 表达 的 基因 间 行 使 功能 的 ,我 们 需要 明确 转录 调控 机 制 ,开发 
信息 学 方法 来 解决 这 些 问题 。 本 章 将 介绍 如 何 应 用 信息 学 方法 研究 在 转录 过 程 中 起 
到 关键 作用 的 启动 子 、 转 录 因 子 、 可 变 剪 接 等 功能 位 点 的 特征 ,探讨 转录 调控 机 制 与 人 

“” ”类 疾病 之 间 的 关联 ,以 及 如 何 应 用 信息 学 方法 综合 分 析 这 些 关联 。 | 








第 一 万 


基因 的 转录 调控 








Section 1 Transcription Regulation 


一 、 转 录 》》 


转录 是 以 一 条 DNA 链 为 模板 ,通过 酶 的 激活 作用 ,利用 碱 基 互 补 配 对 的 原则 合成 一 条 与 
模板 DNA 反 癌 平行 且 互 补 的 RNA 的 过 程 。 其 中 ,作为 模板 的 DNA 链 被 称 为 “模板 链 ”"、“ 负 链 ” 
或 者 “ 反 义 链 ”( 图 7-1 )。 转 录 与 DNA 目 我 复制 结果 的 不 同 在 于 ,在 转录 产物 RNA 里 , 尿 喀 吧 
( U, uracil ) #1 T DNAS milii RF AY BE ( T, thymine )。 


5’ ACATCGACGCGCAGTTAATCCC...3! DNA 编 码 链 (+ ) 

3’ TGTAGCTGCGCGTCAATTAGGG...5’ DNA 模 板 链 ( - ) 

5” ACAUCGACGCGCAGUUAAUCCC...3’ 产物 RNA 链 (+) 
图 7-1 转录 过 程 中 的 模板 DNA 链 与 产物 RNA 链 


一 个 完整 的 转录 过 程 可 以 总 结 成 以 下 四 个 中 心 步 又: 

1. 聚合 酶 结合 到 转录 起 始 位 点 _DNA 序 列 上 起 始 转录 的 信号 称 为 启动 和子。 原核 生物 聚 
合 酶 可 以 识别 局 动 子 并 直接 与 之 结合 。 而 真 核 生 物 聚 合 酶 需要 依 助 其 他 得 日 质 , 这 些 重 日 
质 被 称 为 转录 因子 。 

2. 解 开 DNA 双 螺旋 (图 7-2 ) 能 够 解 开 DNA 双 螺旋 结构 的 酶 称 为 解 旋 酶 。 原 核 生物 聚 
合 酶 具有 解放 活性 ,而 真 核 生物 聚合 酶 没有 解 旋 活性。 所 以 真 核 生 物 DNA 双 螺旋 的 解 开 需 
要 借助 于 一 类 特殊 的 转录 因子 。 

3. 基于 DNA 模 板 链 合成 RNA RNA 聚合 酶 使 用 三 磷酸 核 车 ( NTPs ) 构 造 一 条 RNA 链 。 

4. 合成 的 终止 ”原核 生物 和 真 核 生物 使 用 不 同 的 信号 来 终止 转录 。 — C 

在 真 核 细 胞 中 ,新 合成 的 RNA 链 在 完成 3” 加 poly-A 尾 和 5” 加 帽 后 ,通过 核 孔 复合 物 出 
细胞 核 ,进入 到 细胞 质 中 。 真 核 生 物 的 转录 过 程 比 原核 生物 更 复杂 。 一 个 方面 的 原因 是 真 
核 生 物 DNA 被 组 蛋白 缠绕 ,可 以 阻止 聚合 酶 接近 启动 子 。 

转录 是 基因 表达 的 第 一 步 。 由 DNA 转 录 成 的 一 个 RNA 分 子 称 为 一 个 转录 单元 , 它 可 
以 编码 至 少 一 个 基因 。 如 果 这 个 基因 是 编码 蛋白质 的 基因 ,那么 转录 成 的 RNA 被 称 为 信使 
RNA( mRNA )。 男 外 ,转录 出 的 基因 还 可 能 编码 核糖 体 RNA( rRNA )、 转 运 RNA( tRNA EA 
装配 过 程 中 的 其 他 组 分 或 者 核 酶 。 
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(a) 5' | A C A T C G A C G C GCA A 3 


3 TO TA G GOT G C G C G T T » 


(b) T C G A C G C G 


5 A C G A. A 3 
5 G A C G 3 
ma" T | TA 
3 T G G T T 5 


A GG TG C G C 


图 7-2 转录 过 程 中 DNA 双 螺旋 的 打开 
a. 转录 前 的 DNA; b. 在 转录 过 程 中 , DNA 必 须 经 过 解 旋 ， BIB 条 链 能 够 
作为 模板 合成 互补 RNA 


一 个 DNA 转 录 单 元 并 不 是 全 被 翻译 成 和 蛋白质 序列 (编码 序列 ), 其 中 还 包含 调控 蛋白 质 
合成 的 调 探 序列。 编码 序列 上 游 的 调控 序列 称 为 5” 非 翻译 区 ( 5'UTR ), 编码 序列 下 游 的 调 
控 序 列 称 为 3” 非 翻译 区 ( 3'UTR )。 


—.RNAEK$&B2)525 


RNA 聚 合 酶 是 一 类 指导 合成 RNA 的 酶 。 在 细胞 中 , RNA 聚 合 酶 以 DNA 基 因 作 为 模板 合 
成 RNA 链 ,完成 基因 的 转录 。RNA 聚 合 酶 存在 于 所 有 有 机 体 以 及 许多 病毒 中 , 它 最 早 是 由 
Sam Weiss, Audrey Stevens 以 及 Jerard Hurwitz 在 1960 年 独立 发 现 。2006 年 的 诺 贝 尔 化 学 奖 被 
授予 Roger Kornberg, 以 表彰 他 在 摘 绘 转录 的 不 同 阶 段 中 RNA 聚 合 酶 的 分 子 影响 人 研究 中 所 做 
出 的 贡献 。 


(一 ) RNA 聚 合 酶 的 分 类 


1. 原核 生物 ”以 线虫 (E.coli ) 为 例 : 

一 个 线虫 RNA 聚 合 酶 由 五 个 亚 基 组 成 : 两 个 a 亚 基 、B 亚 基 及 B” 亚 基 各 一 个 以 及 
TI 亚 基 。 其 中 , B (151kD ) 和 B (156kD ) 显 着 大 于 a C37kD), 目前, o 亚 基 的 一 些 不 同 
形式 已 经 被 识别 出 来 ,它们 的 分 子 质量 在 28kD 到 70kD 之 间 。c 亚 基 是 一 个 已 知 的 c 因子 ， 
它 不 仅 在 转录 起 始 位 点 的 识别 中 发 挥 了 重要 的 功能 ,同时 控制 着 打开 DNA 双 螺旋 结构 的 解 
旋 酶 的 活性 。 核 苷 酸 的 合成 过 程 由 其 他 四 个 亚 基 完成 ,它们 被 合 称 为 核心 聚合 酶 。“ 全 酶 ” 
( holoenzyme ) 是 指 一 个 完整 的 并 且 具 有 全 部 功能 的 酶 。 在 E.coli 中 ,全 酶 包括 核心 聚合 酶 和 
o 因子 (图 7-3 )。 

2. 真 核 生物 ”根据 RNA 聚 合 酶 指导 合成 产物 的 不 同 , 真 核 动物 的 RNA 聚 合 酶 可 以 分 成 
三 类 : TIERNA RAEI 、[ 和 亚 。 每 类 聚合 酶 包含 两 个 大 亚 基 及 12~15 个 小 亚 基 。 其 中 ， 
两 个 大 亚 基 与 E.coli 中 的 B、B” 亚 基 同 源 , 两 个 小 亚 基 与 E.coli 中 的 a 亚 基 相似 。 但 是 , 真 核 
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全 酶 





图 7-3 原核 生物 RNA 聚 合 酶 的 组 成 


生物 RNA 聚 合 酶 中 不 含有 任何 与 E.coli 的 o 因子 相似 的 亚 基 。 因 此 ,在 真 核 生 物 中 ,转录 的 
起 始 必 须 由 其 他 重 日 介 导 。 

RNA 聚 合 酶 开 参 与 所 有 和 蛋白质 编码 基因 以 及 大 多 数 的 snRNA 基 因 的 转录 。 因 此 , RNA 
聚合 酶 开 也 成 为 三 类 RNA 聚 合 酶 中 被 研究 最 多 的 一 类 。 其 他 两 类 RNA 聚 合 酶 仅仅 参与 RNA 
基因 的 转录 。RNA 聚 合 酶 I 在 核 仁 中 ,转录 除 5S rRNA 外 的 所 有 rRNA 基因 。RNA 聚 合 酶 下 
在 核 仁 外 ,转录 5S rRNA tRNA 、U6 snRNA 以 及 一 些小 RNA 基 因 。 

另外 , RNA A HELV RI V 在 植物 中 分 别 指导 siRNA 及 参与 siRNA 定位 的 异 染 色 质 形成 的 
RNA 的 合成 。 


(=) RNA 聚 合 酶 的 功能 


RNA 聚 合 酶 与 DNA 聚 合 酶 都 具有 在 已 存在 的 链 上 继续 添加 核 背 酸 使 之 延长 的 功能 。 这 
两 类 酶 的 主要 区 别 在 于 , RNA 聚 合 酶 可 以 起 始 一 条 新 链 而 DNA 聚 合 酶 并 没有 这 个 能 力 。 因 
此 ,在 DNA 复 制 的 过 程 中 ,必须 先 由 一 个 不 同 的 酶 来 合成 一 段 称 为 引物 的 守 核 并 酸 。 


三 、 转 录 调 控 元 件 》》》 


一 个 基因 由 转录 区 与 调控 区 组 成 。 转 录 区 作为 DNA 的 一 部 分 被 转录 成 初级 转录 本 (一 

个 与 转录 区 DNA 互 补 的 RNA 分 子 )。 调 控 区 可 以 被 划分 为 顺 式 调控 ( cis-regulatory , or cis- 

. acting ) 元 件 和 反 式 调控 trans—regulatory , or trans-acting ) 元 件 。 顺 式 调控 元 件 是 转 KAFKI 
结合 位 点 。 转 录 因 子 (一 类 蛋白质 ) 与 顺 式 调控 元 件 结合 ,可 以 增强 或 抑制 转录 。 反 式 调 控 
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元 件 是 编码 转录 因子 的 DNA 序 列 。 
顺 式 调控 元 件 可 以 被 分 成 以 下 四 种 类 型 (图 7-4 )。 


上 游 下 游 








—50 —40 —30 —20 —10 -1 
GCbox 
CAATbox TATA Inr 
二 -一 一 
其 他 * Y 真 核 生物 





—200 —160 —120 —80 —40 一 ] 
图 7-4 基因 的 结构 


转录 区 域 包含 外 显 子 和 内 含 子 。 调 控 元 件 包括 局 动 子 应 答 元 件 、 增 强 子 和 沉默 子 。 下 
游 ( downstream ) 指 转录 进行 的 方 同 ,上 游 ( upstream ) 8 59 o& 4H c 8375 I8] o 


(一 ) 局 动 子 


启动 子 是 DNA 上 转录 起 始 的 一 段 区 域 , 它 是 一 个 转录 开始 的 信息 提供 者 ,通常 位 于 转 
录 起 始 位 点 的 上 游 。RNA 聚 合 酶 能 够 识别 并 与 之 结合 ,从 而 起 始 基 因 转 录 。 转 录 的 起 始 是 
基因 表达 的 关键 阶段 ,而 这 一 阶段 的 重要 问题 是 RNA 聚 合 酶 与 启动 子 的 相互 作用 。 启 动 子 
的 结构 影响 了 它 与 RNA 聚 合 酶 的 亲和力 ,从 而 影响 了 基因 表达 的 水 平 。 在 原核 生物 中 ,局 
动 子 序列 由 RNA 聚 合 酶 中 的 c 因子 识别 。 以 E.coli 为 例 , E.coli 有 五 类 o ATF: o”: 调控 大 
部 分 基因 的 表达 ; o7 : 调控 热 激 蛋白 (heat shock proteins ) 的 表达 ; o” : 调控 鞭毛 操纵 子 
( flagellar operon ) 的 表达 (与 细胞 移动 有 关 ); o” : 调控 基因 表达 对 抗 外 部 压力 ; c^ 调控 
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与 氮 代 谢 相 关 的 基因 表达 。 表 7-1 中 概括 了 由 E.coli 的 o 因子 识别 的 启动 子 的 共有 序列 ( 除 
c 外 ,目前 并 不 清楚 )。 共 有 序列 ( consensus sequence ) 是 与 调控 蛋白 互 作 的 理想 序列 。 一 
个 启动 子 通常 含有 与 共有 序列 一 致 或 者 非常 接近 的 序列 元 件 。 


X7-1 E.colio 因子 与 其 识别 位 点 (启动 子 ) 的 共有 序列 











_ o AF = 启动 子 共有 序列 
-35 区 -10 区 
a 70 TTGACA TATAAT 
c 32 TCTCNCCCTTGAA CCCCATNTA 
c 28 CTAAA CCGATAT 
-24 区 -12 区 
o 54 CTGGNA TTGCA 


i£: -10 区 又 称 Pribnow box, N 代 表 任 意 碱 基 。 


在 真 核 生物 中 ,启动 子 由 一 类 特殊 的 转录 因子 识别 。 其 中 ,蛋白 质 编 码 基因 与 RNA 基 因 
的 转录 有 显著 区 别 。 在 真 核 生 物 蛋 日 质 编码 基因 中 ,最 常见 的 启动 子 元 件 是 TATA box, € 
通常 位 于 转录 起 始 位 点 上 游 -35 到 -20 个 碱 基 处 。 它 的 共有 序列 为 TATAAA ,这 与 c 在 原核 
生物 -10 区 域 的 识别 位 点 极为 相似 。 另 一 个 启动 子 元 件 被 称 为 起 始 子 ( initiator, Inr )。 它 的 
共有 序列 为 PyPyAN( T/A )PyPy, 其 中 Py 代 表 喀 啶 ( C 或 T ),N 代 表 任 意 碱 基 ,(TAA ) 代 表 T 或 A。 
在 第 三 个 位 置 上 的 碱 基 A 位 于 +1, 即 转录 起 始 位 点 。TATA box 和 起 始 子 是 核心 启动 子 元 件 。 
还 有 其 他 位 于 转录 起 始 位 点 200bp 以 内 的 元 件 , 如 CAAT box 和 GC box ,它们 又 被 称 为 启动 子 
邻近 元 件 ( promoter-proximal elements )。 真 核 生 物 启 动 子 元 件 的 性 质 详 见 表 7-2。 


表 7-2 真 核 生物 启动 子 元 件 


PIF amen. 转录 因子 | 共有 序列 
Inr +1 TBP PyPyA,,N( T/A ) PyPy 
TATA box —35~-20 TBP TATAAA 
CAAT box —200~-70 CBF, NF1, C/EBP CCAAT 
GC box —200~-70 SP1 GGGCGG 
(0 Wu 大 多 数 情况 下 , CAAT 和 GC box 位 于 -200 到 -70 的 位 置 上 。CBF 为 CAAT 结 合 蛋 和 白 ; CJEBP 为 CAAT/ 增 强 
子 结合 蛋白 。 


与 起 始 子 和 TATA box H. fE B5] 2& A It 8K BK JJTATA-box?i & Bz FAC TATA-box binding 
protein, TBP )。TBP 是 转录 因子 TFID 的 一 个 亚 基 , 它 不 仅 能 够 识别 蛋白 质 编码 蛋白 的 核心 
启动 子 ,同时 也 识别 RNA 启 动 子 。 


(二 ) 增强 子 | 
增强 子 是 一 类 DNA 元 件 ,通过 与 转录 因子 (激活 子 ) 的 结合 ,可 以 增强 转录 。 它 可 以 位 
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于 转录 起 始 位 点 的 上 游 或 下 游 。 大 多 数 增强 子 位 于 转录 起 始 位 点 上 游 。 在 原核 生物 中 , 增 
强 子 与 启动 子 十 分 接近 ,而 真 核 生物 的 增强 子 可 能 远离 启动 子 。 


(三 ) 沉默 子 


沉默 子 是 这 样 一 类 DNA 元 件 : 它 通过 与 转录 因子 (抑制 子 ) 结 合 ,可 以 抑制 转录 。 在 原 
核 生 物 中 ,沉默 子 也 被 称 为 操纵 子 ( operators ), 可 以 在 许多 基因 中 找到 ,如 lac 操 纵 子 和 trp 操 
纵 子 。 在 真 核 生 物 中 ,下 列 基 因 被 证 明 含 有 沉默 子 : 人 B_globin 基 因 (binding of HMG-IC Y ) 
elicits structural changes in a silencer of the human beta-globin gene. ); 人 CD95( Fas/APO-1 ) 基 
因 ( silencer and enhancer regions in the human CD95 ( Fas/APO-1 ) gene with sequence similarity 
to the granulocyte—macrophage colony-stimulating factor promoter: binding of single strand- 
specific silencer factors and AP-1 and NF-AT-like enhancer factors. ); A dopamine beta—hydroxylase 
(DBH) 基 [Al( The cell-specific silencer region of the human dopamine beta-hydroxylase gene 
contains several negative regulatory elements. ) 以 及 脑 源 性 神经 营养 因子 基因 (brain-derived 
neurotrophic factor expression in vivo is under the control of neuron-restrictive silencer element. )。 

在 少数 情况 下 ,一 个 DNA 元 件 可 以 根据 所 结合 的 蛋白 质 来 发 挥 增强 子 或 者 沉默 子 的 作 
用 。 例 如 ,一些 基因 含有 一 个 称 为 E box 的 元 件 ( 共 有 序列 为 CACGTG ), 它 可 以 与 Max/Myc 二 
聚 物 或 者 Max/Mad 二 聚 物 结合 。Max/Myc 二 聚 物 可 以 激活 转录 ,而 Max/Mad 二 肾 物 则 抑制 这 
些 基因 的 转录 。 


(四 ) ij sz 70 


啊 应 元 件 是 一 类 转录 因子 的 识别 位 点 ( 表 7-3 )。 大 部 分 啊 应 元 件 位 于 转录 起 始 位 点 1kb 
HAY. 
表 7-3 真 核 生物 响应 元 件 


响应 元 件 转录 因子 Die 共有 序列 
CRE CREB TGACGTCA 
ERE WESCE ZAK Estrogen receptor ) AGGTCANNNTGACCT 
GRE 糖 皮质 激素 受 体 ( Glucocorticoid receptor ) AGAACANNNTGTTCT 
HSE 热 休 克 因 子 ( Heat shock factor ) GAANNTTCNNGAA 
SRE Imus 答 因 子 ( Serum response factor ) CC( A/T ),GG 


cAMP 应 答 元 件 ( CRE ) 与 CREB( CREA EA ) 相 互 作用 , CREB 由 cAMP 调 控 。 
WESCE I ACEC ERE ) 和 糖 皮质 激素 应 答 元 件 (GRE ) 分 别 是 峻 激 秦 受 体 和 糖 皮质 激 


素 受 体 的 识别 位 点 。 需 要 注意 的 是 ,虽然 激素 本 身 不 是 转录 因子 ,但 是 许多 激素 的 受 体 却 是 
转录 因子 。 


血清 应 答 元 件 ( SRE ) 与 血清 应 答 因 子 (SRF ) ZEA, SRF 可 以 被 许多 血清 中 的 生长 因子 
激活 。AP-1 的 Fos 亚 基 由 一 个 包含 SRE 的 基因 编码 , Fos 通 常 被 认为 在 细胞 周期 过 程 中 发 挥 
了 重要 的 作用 。 
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四 、 真 核 生 物 转录 机 制 >>> 


在 真 核 生物 中 , DNA 组 装 成 染色 质 ,通过 限制 RNA 聚 合 酶 及 其 附属 因子 与 DNA 的 结合 
基因 维持 在 一 个 “ 失 活 ”的 状态 。 染 色 质 由 组 蛋白 构成 ,组 蛋白 形成 的 结构 称 为 核 小 体 。 组 
蛋白 可 以 被 翻译 后 修饰 ,通过 降低 核 小 体 的 能 力 从 而 抑制 转录 因子 的 结合 。 基 因 的 “开启 ” 
和 “关闭 ”是 一 个 预 编程 的 方式 , 即 一 个 最 终 形成 细胞 特异 性 的 过 程 。 这 个 编程 的 过 程 是 由 
转录 因子 精心 策划 的 ,它们 通常 与 被 它们 控制 的 基因 附近 的 一 些 特殊 DNA 位 点 相 结 合 。 单 
个 的 转录 因子 并 不 能 决定 一 个 调控 事件 。 相 反 , 组 合 控 制 机 制 才 是 调控 的 关键 。 在 组 合 控 
制 中 ,不 同 组 合 以 及 细胞 类 型 特异 的 和 蛋白质 主导 了 基因 的 开关 。 











zB — T2 
局 动 子 的 信息 学 分 析 





Section 2 Bioinformatics Analysis on Promoter 


一 \ 司 动 子 识别 问题 》》 


真 核 基 因 的 识别 问题 一 直 是 生物 信息 学 的 一 个 重要 内 容 ,基因 局 动 子 区 的 识别 是 完整 
基因 结构 识别 中 的 重要 一 环 。 局 动 子 是 一 段位 于 结构 基因 $” 端 上 游 的 DNA 序 列 ,能 活化 
RNA 聚 合 酶 ,使 之 与 模板 DNA 准 确 地 结合 并 具有 转录 起 始 的 特异 性 。 转 录 的 起 始 是 基因 表 
达 的 关键 阶段 ,而 这 一 阶段 的 重要 问题 是 RNA 聚 合 酶 与 启动 子 的 相互 作用 。 启 动 子 的 结构 
影响 了 它 与 RNA 聚 合 酶 的 亲和力 ,从 而 影响 了 基因 表达 的 水 平 。 人 类 启动 子 区 的 识别 是 生 
物 医 学 研究 的 基本 需要 ,是 构建 基因 调节 网 络 的 一 个 核心 问题 。 负 责 mRNA 转 录 的 RNA Pol 
[启动 子 是 启动 子 中 数量 最 多 ,也 是 最 重要 的 一 类 。 

在 早期 的 局 动 子 预测 的 研究 中 , 隐 马 尔 科 夫 模型 .类 神经 网 络 .数据 挖掘 与 权重 矩阵 等 
方法 被 广泛 应 用 。 目 前 预测 启动 子 主要 从 鉴定 启动 子 的 转录 起 始 位 点 、 核 心 启动 子 区 域 、 转 
录 因 子 结合 域 和 启动 子 的 CpG 岛 四 个 方面 出 发 。 但 是 , 当 用 这 些 启动 子 预测 工具 来 处 理 未 
知 的 .复杂 的 DNA 序 列 时 ,识别 的 结果 往往 是 比较 严重 的 遗漏 和 偏 高 的 假 阳 性 率 。 


二 、 局 动 子 数据 资源 >> 


公共 分 子 信息 数据 库 包 括 基 因 图 谱 数 据 库 、 核 酸 序列 数据 库 、 和 蛋白 质 序列 数据 库 、 大 分 
子 结 构 数 据 库 等 。 这 些 数 据 库 由 专门 的 机 构建 立 和 维护 ,他 们 负责 收集 、 组 织 \ 管 理 和 发 布 
生物 分 子 数据 ,并 提供 数据 检索 和 分 析 工 具 , 回 生物 学 研究 人 员 提 供 大 量 有 用 的 信息 ,最 大 
限度 地 满足 他 们 的 研究 需要 ,为 生物 信息 学 研究 提供 服务 。 

目前 ,国际 上 有 三 个 主要 的 核酸 序列 数据 库 : 美国 国家 生物 技术 信息 中 心 ( NIH ) 建立 
的 DNA 数 据 库 , GenBank; 欧洲 生物 信息 研究 院 ( European bioinformatics institute, EBI ) fill 
t AK KEY Re AH JE, EMBL; 以 及 日 本 DNA 数 据 库 , DDBJ( DNA data bank of Japan ),( 表 
7-4 )。 这 三 个 数据 库 分 别 在 全 世界 范围 内 收集 序列 信息 ,同时 ,他 们 每 天 都 将 新 发 现 或 更 新 
过 的 数据 相互 交换 。 
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表 7-4 国际 性 的 核 革 序列 数据 库 

















a 数据 库 2 d : | 589 | | 
GenBank http: //www.ncbi.nlm.nih.gov/ 
EMBL nucleotide sequence database http: //www.ebi.ac.uk/embl/ 
DNA data bank of Japan ( DDBJ ) http: //www.ddbj.nig.ac.jp/ 


在 本 节 中 使 用 的 启动 子 数据 ,除了 可 以 从 上 文 提 到 的 三 个 综合 性 数据 库 中 下 载 外 ,还 有 
一 些 专门 针对 启动 子 数据 建立 的 数据 库 ( 表 7-5 )。 这 些 数据 库 通常 是 启动 子 识别 研究 工作 
者 们 获取 启动 子 数据 的 主要 来 源 。 各 个 数据 库 的 数据 描述 和 数据 的 收集 方法 及 开发 工具 等 
在 其 网 站 上 均 有 详尽 的 描述 ,用 户 可 以 根据 目 己 的 需要 来 选择 搜索 并 下 载 相关 的 数据 。 这 
些 数 据 提供 了 启动 子 的 序列 信息 、 位 置信 息 以 及 类 别 信 息 等 ,并 且 其 中 的 部 分 数据 库 , 如 真 
核 生物 启动 子 数 据 库 ( EPD ) 等 ,还 保证 了 所 含 启动 子 数据 非 匈 余 性 。 


表 7-5 部 分 启动 子 /转录 起 始 位 点 数据 库 及 网 址 


| 数据 库 “ o = 网 址 
eukaryotic promoter database ( EPD ) http: //www. epd. isb-sib. ch/ 
database of transcriptional start sites ( DBTSS ) http: //dbtss. hgc. jp/ 
hematopoiesis promoter database ( HemoPDB ) http: //bioinformatics. wistar. upenn. edu/HemoPDB 
mammalian promoter database ( MPromDb ) http: //bioinformatics. wistar. upenn. edu/HemoPDB 
human chromosome 22 promoter data http: //www. sanger. ac. uk/about/history/hgp/chr22. html 
transcription regulatory regions database ( TRRD ) http: //www. bionet. nsc. ru/trrd/ 


transcriptional regulatory element database ( TRED ) http: //rulai. cshl. edu/cgi-bin/TRED/tred. cgi ? 


process=home 


(一 ) 真 核 基因 局 动 子 数据 库 EPD/EPDnew 


1. 数据 库 概 况 ” 真 核 基因 启动 子 数据 库 (eukaryotic promoter database, EPD) 由 以 色 列 
Rehovot 的 Weizmann 科学 研究 所 设计 和 开发 。 目 前 , FHEpalingess/Sig 1-75: 38 WISRECS EAI 
维护 。 由 两 个 实验 室 协 作 完 成 的 更 新 程序 将 会 确保 EPD 中 的 位 置 参考 和 主 数据 库 中 序列 数 
据 的 兼容 性 。EPD 作 为 EMBL 数 据 库 中 的 一 个 专门 的 注释 数据 库 , 提供 了 相关 真 核 生物 局 动 
子 的 信息 , 以 帮助 实验 研究 人 员 及 生物 信息 学 研究 人 员 分 析 真 核 基因 的 转录 信号 。EPD 目 
前 的 版 本 源 于 文献 , 以 层次 分 类 顺序 组 织 起 来 ,所 记录 的 功能 位 点 数据 集 指 癌 转录 起 始 位 
扩 。EPD 中 的 所 有 信息 或 者 直接 来 源 于 科学 文献 ,或 者 从 第 73 版 本 继承 。 因 此 , EPD 中 的 局 
动 子 信 息 独 立 于 EMBL 序 列 条 目 描 述 。 同 样 , EPD 中 出 现 的 许多 起 始 位 点 并 不 出 现在 相应 的 
EMBL 功 能 表 中 。EPD 是 目前 唯一 的 实验 证 实 启动 子 数据 库 ,所 以 是 各 种 预测 软件 的 评论 手 
2 om 
作为 一 个 带 有 注释 信息 的 非 元 余 真 核 生 物 聚 合 酶 (POL ) TASTE, EPD 中 的 转 
录 起 始 位 点 信息 均 由 实验 证 实 , 如 : 是 否 为 真 核 RNA 聚 合 酶 开启 动 子 .是否 在 高 等 具 核 生物 
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中 有 生物 学 活性 、 是 否 与 数据 库 中 的 其 他 启动 子 有 同 源 性 等 。 一 个 条 目的 注释 部 分 包括 对 
起 始 位 点 映射 数据 的 描述 、 与 其 他 数据 库 的 交叉 引用 (如 EMBL、SWISS-PROT、TRANSFAC 
等 ) 以 及 对 参考 文献 的 描述 。EPD 的 结构 及 组 织 方 式 有 利于 动态 提取 有 生物 学 意义 的 启 
动 子 集 用 于 序列 比较 分 析 。 截 至 本 书 编 稿 ,该 数据 库 已 经 包含 了 十 个 物种 共 4806 条 启动 子 
序列 。 

EPDnew 重 新 收集 了 在 人 类 和 小 鼠 基因 组 中 经 过 实验 验证 的 启动 和子。 证 据 来 自 CAGE、 
TSS-seq 等 识 通 量 实验 的 TSS 图 谱 。 分 析 时 同时 考虑 了 H2AZ、H3K4me3、POLI 及 DNA 甲 基 
化 的 ChIP-seq 实 验 结果 。 数 据 库 最 终 包 含 9716 个 人 类 启动 子 和 9773 个 小 鼠 启 动 子 。 

2. 启动 子 数 据 的 检索 ”用 户 可 以 直接 从 EPD 网 站 的 FTP 站 点 批量 下 载 Fasta 格 式 的 启动 
子 数 据 。 也 可 以 在 Download EPD db'f, 依照 所 需 局 动 子 的 位 置 及 大 小 获取 数据 。 如 图 7-5 
中 选择 的 是 TSS 上 游 -499bp 至 下 游 100bp, 长度 为 600bp 的 启动 子 序列 。 

3. 数据 的 格式 ”EPD 中 的 数据 采用 本 质 上 相同 的 两 种 ASCII 格 式 ( epd.dat, epd_bulk.dat ) 
存储 。EPD 文 件 包 含 一 个 标题 行 (图 7-6 ), 随 后 记录 了 一 系列 的 启动 子 数据 。 为 了 使 整个 数 
据 库 与 现 有 信号 搜索 分 析 软 件 使 用 的 标准 FTP 文 件 格 式 一 致 , 标 题 行 和 启动 子 数据 的 部 分 
子 项 均 有 固定 的 格式 。 

每 条 启动 子 数据 的 存储 格式 与 EMBL 及 SWISS-PROT 序 列 数据 的 存储 格式 相似 。 每 行 
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图 7-5 特定 位 置 启 动 子 数据 的 下 载 
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图 7-6 EPD 数 据 标题 行 示例 


开始 是 一 个 行 标 ,定义 本 行 所 表述 信息 的 类 别 。 行 标的 意义 见 表 7-6。 
表 7-6 EPD 数 据 行 Code 对 应 意义 


ID identification 
AC accession number( s ) 
DT Date 


DE description 
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续 表 
OS organism species 
HG homology group 
AP alternative promoter 
NP neighbouring promoter 
DR database cross—references 
RN reference number 
RX Reference cross—references 
RA reference authors 
RT reference title 
RL reference location 
ME methods 
SE sequence 
FL full length 
IF initiation frequency 
TX taxonomy 
KW key words 
FP functional position 
DO documentation 
RF literature reference 
// termination line 


其 中 每 个 条 目 具体 的 解释 可 以 在 数据 库 网 站 提供 的 用 户 手册 中 查找 到 。 

[ 例 7-1 ] 试 从 EPD 数 据 库 中 查找 到 10 条 人 类 局 动 子 数据 ,启动 子 的 大 小 为 转录 起 始 位 点 
上 游 -1300bp 至 TSS 下 游 +49bp。 利 用 该 网 站 提供 的 比 对 工具 进行 BLAST 比 对 。 

解答 : 登录 EDP 数 据 库 : http: //epd.vital-it.ch/; Q@O 从 数据 库 页 面 左 侧 Access EPDJJ BE 
中 选择 Download EPD db; @) 在 Download EPDnew human 中 将 所 需 启 动 子 范围 定 在 - 1300bp 到 | 
49bp, 点击 download; (4) 选 择 10 条 满足 条 件 的 fasta 格 式 序列 在 blast 工 具 中 比 对 即 可 得 到 比 对 
结果 。 


(=) 转录 起 始 位 点 数据 库 DBTSS 


1. 数据 库 概 况 ”DBTSS (database of transcriptional start sites) 是 东京 大 学 医学 科学 院 人 
类 基因 组 中 心 (human genome center, institute of medical science, The University of Tokyo) 开发 
的 一 个 关于 局 动 子 及 转录 调控 的 研究 数据 库 。 其 中 包含 了 精确 的 真 核 生物 mRNA 转录 起 始 
位 点 信息 。 在 最 近 版 本 中 , 数据 库 增 加 了 新 的 TSS 数 据 , 使 数据 库 履 盖 了 大 部 分 成 人 及 胚胎 
组 织 。 目 前 , DBTSS 包 含 收 集 自 20 个 组 织 及 7 个 细胞 系 的 49, 100 万 条 TSS 标 签 序列 。 数 据 库 
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还 整合 了 最 近 产 生 的 RNA-seq 数 据 及 组 重 白 修 饰 的 ChIP-seq 数 据 。 用 户 不 仅 可 以 得 到 精确 
的 TSS 位 置信 息 ,还 能 得 到 它们 的 表达 水 平 ,这 有 助 于 进一步 推断 启动 子 上 游 区 域 并 理解 基 
因 的 转录 调控 。 

2. 数据 库 检索 DBTSS 的 主要 有 个 四 个 部 分 构成 ,分 别 是 : 数据 库 搜索 模块 、TSS-Seq/ 
SNP 信 息 搜索 模块 ,分 析 工 具 模 块 及 下 载 模 块 。 在 其 网 站 主页 的 左边 栏 可 以 清晰 地 看 到 各 
个 模块 的 构成 及 功能 (图 7-7)。 
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Analysis tools 
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图 7-7 DBTSS 数 据 库 的 构成 
A. 选 择 所 要 搜索 的 物种 ; B. 搜 索 TSS-Seq 数 据 时 ,选择 “TSS Seq"; 搜索 cDNA 数 据 时 ,选择 “Sanger”; C. $ 
入 查询 条 件 ; 0 .搜索 TSS9-Seq 数 据 时 ,输入 最 小 ppmi; 搜索 cDNA 数 据 时 ,输入 克隆 /标签 号 ; E. F.TSS- Seq/SNP 
信息 搜索 模块 ; 6. 非 编码 RNA 浏 览 器 ; H. 比 较 浏 览 器 ; 1. 转录 因子 结合 位 点 搜索 工具 ; J. SNPIE E TR; KL 
据 库 下 载 FTP 
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用 户 可 以 根据 不 同 的 需求 ,使 用 不 同 的 搜索 及 分 析 工 具 。 

[ 例 7-2 ] 试 在 DBTSS 数 据 库 查 找 CTCF( CCCTC ) 在 人 类 MCF7 细 胞 系 中 可 能 的 转录 因子 
结合 位 点 。 

解答 : 登录 到 DBTSS 数 据 库 : http: //dbtss.hgc.jp/; D E Zt di Fe 7c fi] T.H. F5 rP Analysis 
Tools 中 点 击 Search for TF Binding Site LA; (3 选择 目标 物种 和 细胞 系 : 人 类 MCF7 ,设置 转 
录 因 子 位 置 ,点 击 create selection table 按 钮 ; 9 在 模式 输入 框 中 , 填 和 人 所 查找 的 CTCF 的 结合 
motif: CCCTC ,点 击 搜索 , 即 可 得 到 可 能 的 转录 因子 结合 位 点 信息 


(=) 哺乳 动物 启动 子 数据 库 (mammalian promoter database, MPD) 


数据 库 概 况 : 在 后 基因 组 时 代 , 基因 调控 网 络 的 性 质 逐 渐 成 为 基因 组 研究 中 重要 的 一 
部 分 。MPD 就 是 在 这 个 时 候 建 立 的 天 于 基因 、 局 动 子 、 转 录 因 子 结合 位 点 以 及 其 他 顺 式 调控 
元 件 的 一 个 高 质量 且 全 面 的 数据 库 。 数 据 库 全 称 为 冷 录 港 实验 室 哺乳 动物 局 动 子 数 据 库 
CCSHLmpd)。 数 据 库 使 用 了 所 有 已 知 的 转录 本 及 完整 的 预测 转录 本 ,构建 了 人 类 ,大 鼠 和 小 
恨 基 因 组 的 基因 集合 。 其 中 的 局 动 子 信息 包含 预测 得 到 的 局 动 子 。 数 据 库 中 的 局 动 子 全 部 
映射 到 基因 组 中 , 和 相关 基因 相连 。 数 据 库 还 对 垂直 同 源 基 因 组 的 启动 子 进行 了 比较 分 析 ， 
以 检测 局 动 子 区 域 序列 的 保守 性 。 

使 用 CSHLmpd 有 助 于 基因 调控 网 络 的 研究 , 它 问 如 DNA microarray 等 实验 提供 研究 
指导 。 


三 、 真 核 生物 局 动 子 在 线 分 析 工 具 》》 


(—) Promoter 2.0 Prediction Server 


Promoter2.0 fil Jill Hz 4 25 http: //www.cbs.dtu.dk/services/Promoter/ ) 的 主要 功能 是 在 DNA 
FA p B QU RES POLIUG FF eA. ELA ZEAE RA A AER, OZ 
发 展 成 为 一 个 模拟 在 局 动 子 区 域 序列 相互 作用 的 转录 因子 的 工具 。 

1. 输 入 序列 的 处 理 ” 有 两 种 方式 输入 序列 。 一 种 是 将 一 条 或 多 条 FASTA 格 式 序列 直接 
粘贴 到 服务 硕 主 页 上 部 的 序列 输入 窗口 中 。 除 此 之 外 ,还 可 以 从 本 地 硬盘 中 选择 竺 处理 的 
FASTA 文 件 , 直 接 上 传 。 两 种 方式 计算 时 间 相 同 。 需 要 注意 的 是 ,序列 文件 中 所 用 字符 必须 
为 A,C, G,T 或 X。 其 中 X 代 表 未 知 碱 基 , 所 有 其 他 的 字符 必须 在 处 理 前 转换 成 X。 单 次 输入 
限制 为 最 多 50 条 序列 或 150 万 碱 基 。 

2. 选 择 输出 格式 ”默认 输出 格式 只 显示 预测 结果 。 硅 想 在 结 百 采 中 包含 输入 序列 , 则 需 
要 点 击 “Full output” 按 钮 。 


(二 ) PromoSer 


人 们 对 转录 调控 机 制 研究 的 关注 点 一 般 在 基因 局 动 子 区 域 附近 。 人 们 需要 获取 这 些 区 
域 来 寻找 大 量 相 关 基 因 。 用 计算 的 方法 来 预测 整个 基因 组 的 启动 子 及 基因 在 很 大 程度 上 依 
赖 于 训练 模型 时 使 用 的 预先 确定 的 数据 集 。 这 就 需要 收集 大 量 高 精确 度 的 启动 子 序列 。 

PromoSer( http: //cagt.bu.edu/page/Promoser_submit ) 是: 一 个 基于 网 络 的 服务 , B TED 
取 大 量 哺乳 动物 基因 组 局 动 子 序列 。 为 了 识别 一 个 基因 的 转录 起 始 位 点 (TSS ), 创 立 者 将 所 
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有 可 用 的 mRNA 及 EST 序 列 数据 映射 到 基因 组 中 ,通过 跟 踊 重 倒 比 对 ,获得 这 些 序列 最 大 的 
延伸 可 能 ,最 终 确定 TSS。 

Promoser 易 于 使 用 。 只 要 提供 一 个 CenBank 登 录 ID 列 表 , 以 确定 感 兴趣 的 基因 ,并 输入 
所 需 TSS 的 侧翼 范围 。PromoSer 处 理 输入 并 返回 一 个 含有 所 需 区 域 的 多 重 FASTA 格 式 文件 。 








(=) neural network promoter prediction, NNPP 


NNPP( http: //www.fruitfly.org/seq_tools/promoter.html ) 是 一 个 在 DNA 序 列 中 发 现 真 核 及 
原核 生物 启动 子 的 方法 。NNPP 程 序 以 一 个 时 间 延 迟 神经 网 络 为 基础 。 时 间 延 迟 神经 网 络 
主要 包含 两 个 功能 层 : 一 个 用 来 识别 TATA-box , 另 一 个 识别 “起 始 子 ”, 即 一 段 包含 转录 起 始 
位 点 的 区 域 。 两 个 功能 层 合 并 成 一 个 输出 单元 ,输出 的 得 分 在 0~1 之 间 。 

[ 例 7-3 ] 在 CenBank 中 查找 一 条 真 核 生 物 DNA 序 列 ,利用 真 核 生 物 启动 子 在 线 分 析 软 件 
预测 分 析 局 动 子 区 域 ,并 分 析 局 动 子 特征 。 

解答 : 用 前 文 介绍 的 在 线 分 析 软 件 做 实验 练习 。 


四 、 局 动 子 识别 的 信息 学 研究 方法 >> 


由 于 启动 子 在 基因 转录 过 程 中 发 挥 厦 至 关 重 要 的 调控 作用 ,使 得 对 局 动 子 的 识别 研究 
成 为 科学 人 研究 者 关注 的 焦点 。 

从 研究 的 方法 上 看 ,目前 已 经 发 表 的 用 于 局 动 子 预测 程序 的 识别 技术 有 基于 神经 网 络 、 
线性 和 二 次 判别 (quadratic discriminate ) 分析 、 相 关 问 量 机 ( relevance vector machine ) 局 动 
子 区 域 的 统计 性 质 改进 的 马尔 可 夫 模 型 ,以 及 这 些 方 法 的 结合 。 

比如 常用 的 计算 机 预测 启动 子 方法 中 , TSSG 和 TSSW 使 用 了 位 点 比重 阵列 ( position 
weight matrix, PWM ), Core Promoter 使 用 了 二 次 判别 式 分 析 ( quadratic discriminant analysis, 
QDA ); 基于 隐 马 尔 可 夫 模 型 HMM ) AY 法 Audic 和 Mecpromoter 中 ,Audic 是 HMM 结 合 贝 
叶 斯 定律 , Mcpromoter 使 用 了 HMM 结 合 高 斯 分 布 曲线 ; 而 DranonPF、DragonGSF、NNPP2.2、 
Promoter2.0 用 人工 神 经 网 络 (artificial neural network, ANN ) 作为 方法 设计 的 一 部 分 ， 
Promoter2.0 使 用 遗传 算法 ( genetic algorithm, GA ), 而 NNPP 又 结合 了 时 间 延 迟 神经 网 络 (time- 
delay neural network, TDNNS ) 和 位 点 修剪。 除了 计算 及 统计 方法 上 的 不 同 之 外 ,一 些 方 法 
还 对 序列 本 和 号 的 性 质 加 以 利用 ,比如 PromFind 和 PromoterInspector 应 用 了 六 聚 体 和 低 聚 复合 
物 的 性 质 , DragonPF、DragonGSF、Eponine 和 FirstEF 考 虑 了 G+ CA Ht; Eponine、NNPP2.2 和 
Promoter2.05| A  “TATA&” #48; CpGProD、DragonGSF 和 FirstEF 从 不 同 角 度 对 CpG 岛 提供 
的 信息 加 以 利用 。 

基于 对 以 上 方法 的 了 解 , 我 们 可 以 将 用 计算 的 方法 来 预测 识别 启动 子 的 方法 大 致 分 成 
三 类 : 一 类 是 基于 统计 或 内 容 的 方法 ,这 类 方法 通过 计算 低 聚 核 苷 酸 的 重复 频率 或 比较 转录 
因子 结合 位 点 出 现 的 频率 来 对 局 动 子 进行 分 析 。 第 二 类 是 基于 神经 网 络 的 方法 ,这 类 方法 
使 用 了 ANN 这 种 信息 处 理 系统 对 启动 子 进行 识别 。 大 部 分 的 方法 属于 第 三 类 , 即 对 前 两 类 
技术 的 结合 利用 。 LJ Dragon Promoter Finder( DragonPF ) 为 例 ， DragonPF Æ — A Ful Wl FF HE zJ] 
Wa SIT Ware tea 21-3 PROB, ESR T XI BORAUFAMKUGETN Ti A HE | PWM 
位 点 分 析 、 信 号 处 理 以 及 人 工 神经 网 络 的 方法 。 目 前 启动 子 识 别 问题 的 发 展 趋势 是 将 局 动 
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子 和 编码 外 显 子 以 及 内 含 子 等 非 启 动 子 序列 同时 加 以 考虑 ,并 用 合成 的 方法 来 分 析 。 

从 研究 方法 所 着 眼 解决 的 问题 上 对 启动 子 识 别 问 题 进行 分 类 : 随 着 识别 方法 研究 的 不 
断 发 展 ,对 启动 子 序列 的 研究 渐渐 主要 分 成 解决 识别 一 段 序列 是 否 是 启动 子 以 及 在 识别 的 
同时 确定 一 段 基因 的 转录 起 始 位 点 两 大 类 问题 。 

目前 常用 的 RNA POL 开启 动 子 识别 方法 见 表 7-7, 常 用 的 转录 起 始 位 点 识别 方法 见 表 
7-8, 男 外 ,还 有 一 些 一 般 的 基因 识别 方法 可 以 用 来 进行 RNA POLI 以 及 其 他 特征 ( MARs、 
CpG 岛 ) 的 检测 , 见 表 7-9。 


表 7-7 常用 的 RNA POL II 启动 子 识别 方法 











Audic/Claverie rotat cnrs-mrs. oT 


CorePromoter http: //rulai.cshl.edu/tools/genefinder/CPROMOTER/index.htm 

FunSiteP http: //compel.bionet.nsc.ru/FunSite/fsp.html 

ModelGenerator/ 

—— http: //www.gsf.de/ieg/groups/biodv/modyproject.html 

PPNN http: //www.fruitfly.org/seq_tools/promoter.html 

PromFD 1.0 FTP 

PromFind 2.0 http: //www.rabbithutch.com/ 

Promoter 2.0 http: //www.cbs.dtu.dk/services/Promoter/ 

Promoter Scan http: //thr.cit.nih.gov/molbio/proscan/ 

TSSG/TSSW http: //www.softberry.com/berry.phtml ? topiczindex&group-programs&subgroup-promoter 


347-8 常用 转录 起 始 位 点 识别 方法 











ARERR 
Matind/Matinspector/F astM http: //www.gsf.de/ieg/groups/biodv/modyproject.html 
MATRIX SEARCH 1.0 [«] chenq@boulder.colorado.edu A& 3 ifj ;K 
PatSearch 1.1 http: //www.800xe.de/webwatch/Patsearch—Das—private—Experiment.html 
Signal Scan http: //bimas.dcrt.nih.gov/molbio/signal/ 
TESS - http: //www.cbil.upenn.edu/tess/ 
TFSEARCH http: //www.cbre.jp/research/db/TFSEARCH.html 


37-9 用 于 分 析 RNA POL II 的 基因 识别 方法 


方法 名 称 相关 网 站 及 信息 








GENSCAN ten //genes.mit.edu/GENSCAN.html 


GRAIL http: //compbio.ornl.gov/Grail-1.3/ 


MAR-Finder http: //www.futuresoft.org/MAR-Wiz/ 
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WebGene http: //www.itb.cnr.it/sun/webgene/ 
GENSCAN http: //genes.mit.edu/GENSCA N.html 
GRAIL http: //compbio.ornl.gov/Grail-1.3/ 


从 研究 者 使 用 的 数据 上 分 类 ,一 部 分 人 选择 广义 概括 的 启动 子 序 列 进行 研究 ,如 真 核 生 
物 局 动 子 或 峭 椎 动物 启动 子 序 列 ; 而 男 一 部 分 人 则 选择 使 用 更 特殊 化 的 启动 子 , 如 大 肠 埃 希 
aa. 

但 是 ,由 于 : 也 核心 启动 子 ( core promoter ) 并 不 是 一 个 单一 的 类 型 ; @) 启 动 子 序列 之 外 
还 有 许多 额外 的 调整 元 素 ; 3) 转录 过 程 可 能 被 规则 的 重 日 质 ( regulatory proteins ) 活化 或 抑 
制 ; (9 转录 催化 剂 和 抑制 剂 有 特定 的 作用 并 且 与 细胞 类 型 和 在 细胞 周期 中 的 点 均 有 关系 等 
原因 ,使 得 对 局 动 子 的 识别 仍然 是 一 项 很 艰难 的 工作 。 现 已 发 表 的 对 不 同类 型 生物 或 物种 
局 动 子 识别 的 方法 仍然 很 难 达 到 一 个 好 的 准确 度 。 由 于 分 析 问 题 的 复杂 程度 以 及 解决 问题 
的 方法 的 不 同 , 现 有 方法 对 整个 人 类 基因 组 启动 子 识别 的 准确 率 仅 为 50.00% 左 右 , 而 对 特定 
种 类 的 启动 子 数据 的 识别 准确 率 在 85.009%~86.00% 之 间 , 并 且 仍 然 存 在 相当 高 的 假 阳 性 率 。 
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Section 3 Bioinformatics Analysis on TF Binding Site 


一 、 转 录 因 子 及 其 转录 调控 机 制 >>. 


在 分 子 生物 学 和 遗传 学 中 ,一 个 转录 因子 (有 时 被 称 为 序列 特异 的 DNA 绪 合 因 子 ) 是 一 
个 能 与 特异 DNA 序 列 结合 的 和 绰 白 质 。 转 录 就 是 调控 遗传 信息 从 DNA 传 递 到 mRNA 的 过 程 。 
转录 因子 可 以 单独 或 与 其 他 蛋 日 质 形成 复合 体 ,提高 或 阻 断 特 异 基因 对 RNA 聚 合 酶 的 招 蕉 。 

转录 因子 的 一 个 特点 是 它 包 含 一 个 或 多 个 DNA 结 合 域 ( DNA-binding domain, DBDs ), 
通过 这 些 结合 域 与 基因 附近 的 DNA 序 列 结 合 ,从 而 完成 调控 。 其 他 和 蛋白 质 ,如 共 激 活 因 子 
( coactivators ), 染色 质 重 构 因 子 ( chromatin remodelers ), ZH 4 F4 Z BEL BS histone acetylases ), 
去 乙酰 化 酶 ( deacetylases ), 激 酶 ( kinases ) 和 甲 基 化 酶 ( methylases ), 虽然 在 基因 调控 中 同样 
起 者 重要 作用 ,但 是 由 于 缺少 DNA 绪 合 域 ,因而 并 没有 被 归 类 为 转录 因子 。 


(一 ) 转录 因子 在 不 同 生物 中 的 保守 性 


转录 因子 存在 于 所 有 生物 体 中 ,对 基因 表达 调控 来 说 是 必 不 可 少 的 。 在 一 个 生物 体内 
转录 因子 的 数量 随 着 基因 组 大 小 的 增加 而 增长 , 较 大 的 基因 组 每 个 基因 倾 问 于 有 更 多 的 转 
录 因 子 。 在 人 类 基因 组 中 大 约 有 2600 个 含有 DNA 结 合 结构 域 的 蛋白 质 ,其 中 大 多 数 被 假设 
具有 转录 因子 功能 。 因 此 ,基因 组 中 大 约 10% 的 基因 编码 转录 因子 ,这 使 得 这 个 家 族 成 为 最 
大 的 人 类 重 日 质 家 族 。 此 外 ,基因 的 两 侧 往 往 存 在 不 同 的 转录 因子 结合 位 点 ,这 些 基因 的 高 
效 表达 需要 几 个 不 同 的 转录 因子 的 协同 作用 。 


(=) 转录 因子 调控 机 制 


转录 因子 可 以 与 受 其 调控 基因 临近 DNA 上 的 增强 子 或 启动 子 区 域 结 合 。 祖 据 转 录 因 子 
的 不 同 , 相 邻 基因 的 表达 可 能 被 上 调 或 下 调 。 转 录 因 子 有 多 种 调控 基因 表达 的 机 制 ,包括 : 

1. 稳定 或 组 织 RNA 聚 合 酶 与 IDNA 结 合 。 

2. 催化 组 蛋白 的 乙酰 化 或 脱 乙 酰 化 ”转录 因子 可 以 直接 或 招募 其 他 带 有 这 一 催化 活性 
的 蛋白 质 来 完成 这 一 作用 。 许 多 转录 因子 使 用 两 种 对 立 机 制 的 其 中 一 种 来 调控 转录 : OH 
集 日 乙酰 转移 酶 作用 一 一 组 借 白 乙醚 化 ,从 而 前 弱 了 DNA 与 组 重 昌 的 结合 ,使 得 DNA 更 容易 
转录 ,起 到 转录 上 调 的 效果 ; @) 组 和 蛋白 去 乙酰 化 酶 ( histone deacetylase, HDAC ) EHI ?H 4 
日 去 乙醚 化 ,从 而 加 强 了 DNA 与 组 蛋白 的 结合 ,使 得 更 少 的 DNA 暴 露 ,达到 下 调转 录 的 目的 。 
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3. 为 转录 因子 DNA 复 合 物 招募 共 激 活 子 或 共 抑 制 子 蛋 白质 在 生物 学 中 ,重要 的 进程 
大 多 具有 多 层 调控 的 性 质 。 转 录 因 子 也 具有 这 样 的 性 质 : 转录 因子 不 仅 能 通过 控制 转录 率 
来 调节 细胞 中 基因 产物 (RNA 和 和 蛋白 质 ) 的 数量 ,而 且 转 录 因 子 自 身 也 受到 调控 作用 (通常 
被 其 他 转录 因子 调控 )。 下 面 将 对 转录 因子 调节 方式 及 活性 做 简短 的 概述 : 

( 1 ) 合 成 : 转录 因子 ( 像 所 有 蛋白质 一 样 ) 从 一 个 染色 体 上 的 基因 转录 成 RNA ,然后 被 翻 
译 成 蛋白质。 调控 这 些 步骤 中 的 任何 一 步 都 会 影响 转录 因子 的 产生 (以 及 活性 )。 这 里 存在 
一 个 有 趣 的 现象 , 即 转录 因子 可 以 被 自己 调控 。 例 如 ,在 一 个 负 反 馈 环 中 ,转录 因子 作为 上 自 
己 的 抑制 子 : 如 果 转 录 因 子 蛋 白质 与 自身 基因 的 DNA 结 合 , 它 将 会 抑制 自身 的 产生 。 这 是 一 
类 在 细胞 中 转录 因子 能 够 维持 较 低 水 平 的 机 制 。 

(2 ) 核 定位 : 在 真 核 生 物 中 ,转录 因子 ( 像 大 多 数 重 白质 一 样 ) 在 细胞 核 中 转录 ,但 是 在 
细胞 质 中 翻译 。 许 多 在 细胞 核 中 具有 活性 的 和 蛋白质 含有 核定 位 信号 ,能 直接 定位 细胞 核 。 
但 是 ,对 许多 转录 因子 来 说 ,这 是 在 它们 调控 过 程 中 的 关键 。 几 类 重要 的 转录 因子 ,如 一 些 
核 受 体 转 录 因 子 在 细胞 质 中 必须 先 在 绑 定 一 个 配 体 ,才能 重新 定位 细胞 核 。 

(3 ) 激 活 : 转录 因子 可 以 通过 它们 的 信号 感应 区 域 激活 (或 失 活 ), 机 制 包括 : 

1 ) 配 体 的 结合 : 配 体 结合 不 仅 能 够 影响 转录 因子 在 细胞 内 的 位 置 ,也 可 以 影响 转录 因 
子 是 否 处 于 激活 的 状态 ,从 而 能 够 与 DNA 其 他 辅助 因子 结合 (例如 , 核 受 体 )。 

2 ) 磷酸 化 : 许多 转录 因子 ,如 STAT 和 蛋白 只 有 磷酸 化 后 才能 与 DNA 结 合 .与 其 他 转录 因子 
或 共 调 控 蛋 白 相 互 作用 (如 , 同 源 或 异 二 聚 体 )。 

4. 易 接近 DNA 绑 定位 点 ”在 真 核 生物 中 , DNA 在 核 小 体 的 帮助 下 组 织 成 压缩 的 状态 ， 
其 中 约 147 个 DNA 碱 基 对 在 组 蛋白 八 聚 体 周围 缠绕 两 圈 。 核 小 体内 部 的 DNA 无 法 与 转录 因 
子 接 近 。 一 些 转录 因子 ,被 称 为 先锋 因子 ,仍然 能 够 与 核 小 体 DNA 的 DNA 绑 定位 点 结合 。 对 
大 多 数 其 他 转录 因子 来 说 , 核 小 体 必 须 被 如 染色 质 重 塑 子 等 分 子 驱动 零件 激活 转移 。 夯 外 ， 
核 小 体 可 以 被 热 波动 部 分 解 开 ,使 得 转录 因子 结合 位 点 暂时 性 暴露 出 来 。 在 许多 情况 下 ,一 
个 转录 因子 与 DNA 绑 定位 点 的 结合 需要 与 其 他 转录 因子 组 蛋白 或 非 组 重 白 染色 质 重 日 质 
进行 竞争 。 转 录 因 子 与 其 他 蛋白 的 组 合 在 调控 相同 的 基因 上 可 以 发 挥 相反 的 作用 (激活 与 
BH ie )。 

5. 其 他 辅助 因子 /转录 因子 的 可 用 性 ”大 多 数 转 录 因 子 不 单独 工作 。 通 常情 况 下 ,为 了 
完成 基因 的 转录 ,一 系列 的 转录 因子 必须 与 DNA 调 控 序列 绑 定 。 这 种 转录 因子 的 集合 , 反 过 
来 ,招募 中 介 和 蛋白 质 , 如 cofactor, 以 高 效 招募 前 起 始 复合 物 和 RNA 聚 合 酶 。 因 此 ,对 于 一 个 单 
一 的 转录 因子 起 始 转录 ,所 有 这 些 其 他 蛋白 质 也 必须 在 场 ,并 且 , 这 个 转录 因子 必须 处 于 一 
HARMAA Be HE T8 LS S o 


(=) 转录 因子 的 功能 


转录 因子 是 这 样 一 组 蛋白 质 ,它们 阅读 和 诠释 DNA 中 的 遗传 “蓝图 "。 它 们 与 DNA 结 合 ， 
并 帮助 启动 一 个 负责 基因 转录 增加 或 减少 的 程序 。 因 此 ,它们 对 许多 重要 的 细胞 过 程 来 说 
是 至 关 重 要 的 。 下 面 是 一 些 转录 因子 参与 的 重要 功能 和 生物 学 角色 : 

1. 基础 转录 调控 在 真 核 生物 中 ， 又 称 为 一 般 转 录 因 子 ( general transcription factors, 
GTFs ) 的 一 类 重要 的 转录 因子 ,它们 是 发 生 转录 的 必要 条 件 。 这 些 GCTFs 中 ,很 多 实际 上 都 
不 绑 定 DNA ,而 仅仅 作为 大 转录 前 初始 复合 物 的 一 部 分 ,与 RNA 聚 合 酶 直接 互 作 。 最 凋 见 的 
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GTFsÆTF Il A, TF II B, TF II D, TFIEJTFIF 和 TFIH。 起 始 前 复合 物 与 其 调控 基因 上 游 的 
启动 子 区域 DNA 相 结合 。 

2. 转录 的 差异 性 增强 ”有 部 分 转录 因子 可 以 绑 定 邻近 调控 基因 的 DNA 增 强 子 区 域 , 从 
而 差异 调控 各 种 基因 的 表达 。 对 保证 基因 在 适当 的 时 间 ` 适当 的 细胞 适量 的 表达 以 适应 有 
机 体 不 断 变化 的 需求 ,这 些 转录 因子 起 到 了 至 关 重 要 的 作用 。 

3. 发 育 “ 在 多 细胞 生物 体内 ,许多 转录 因子 参与 到 发 育 的 过 程 中 。 这 些 转录 因子 调控 
相应 基因 的 表达 与 否 ,决定 细胞 的 分 化 、 细 胞 形态 或 活性 的 变化 。 以 Hox 转 录 因 子 家 族 为 例 ， 
对 于 有 机 物 ( 如 从 人 类 到 果 蝇 的 多 样 化 ) 正 确 的 体型 形成 十 分 重要 。 另 一 个 例子 是 由 性 别 决 
定 区 域 Y( SRY ) 基因 编码 的 转录 因子 ,在 决定 人 类 性 别 的 过 程 中 发 挥 了 重要 作用 。 

4. 细胞 信号 的 啊 应 ”通过 释放 一 种 可 以 产生 与 受 体 细胞 进行 信号 传导 的 分 子 , 使 细胞 
之 间 可 以 互相 沟通 。 如 果 这 个 信号 需要 上 调 或 下 调 受 体 细胞 内 的 基因 表达 ,那么 转录 因子 
将 会 在 信号 级 联 的 下 游 出 现 。 肉 激素 信号 是 一 个 与 雌 激 素 受 体 转录 因子 有 关 的 相当 短 的 信 
号 级 联 的 例子 : 雌 激 素 由 组 织 ( 如 卵巢 和 胎盘 等 ) 分 泌 出 来 , 穿 过 受 体 细胞 的 细胞 膜 ,在 细胞 
质 中 与 雌 激 素 受 体 结合 。 接 着 , 雌 激 素 受 体 进 入 细胞 核 , 绑 定 到 DNA 绑 定位 点 ,改变 相关 基 
因 的 转录 调控 。 

5. 环境 应 答 转录 因子 不 仅 能 在 生物 刺激 有 关 的 信号 级 联 下 游 发 挥 作 用 ,同时 ,它们 
也 能 参与 环境 刺激 的 信号 级 联 下 游 。 例 如 热 休 元 因子 ( heat shock factor, HSF ), 它 可 以 上 调 
在 高 温 下 出 受 的 必需 基因 ; 缺 氧 诱导 因子 ( hypoxia-inducible factor, HIF ), 它 能 够 上 调 在 低 
氧 环 境 中 生存 的 必需 基因 ; 以 及 胆固醇 调 慷 元 件 结合 入 日 ( sterol regulatory element binding 
protein, SREBP ), 它 能 有 助 于 维持 细胞 的 正常 血脂 水 平 。 

6. 细胞 周期 控制 ”许多 转录 因子 ,特别 是 一 些 原 癌 基 因 或 肿瘤 抑制 基因 ,有 助 于 调节 细 
胞 周期 和 决定 当 一 个 细胞 长 到 多 大 时 分 裂 成 两 个 子 细胞 。 以 致癌 基因 Myc 为 例 , 它 在 细胞 增 
长 和 凋 亡 过 程 中 有 重要 的 作用 。 

7. 发 病 机 制 ” 转 录 因 子 也 可 用 于 改变 宿主 细胞 的 基因 表达 ,促进 发 病 机 制 。 由 黄 单 胞 
菌 分 泌 的 类 似 转 录 激 活 子 的 作用 因子 (TAL effector ) 就 是 这 方面 一 个 被 广泛 研究 的 例子 。 
当 这 些 和 蛋白 被 注射 到 植物 中 ,它们 能 够 进入 植物 细胞 的 细胞 核 中 ,与 植物 局 动 子 序 列 结合 ， 
激活 帮助 细菌 感染 的 植物 基因 的 转录 。 


(四 ) 转录 因子 的 结构 


转录 因子 具有 模块 状 结构 (图 7-8 ), 包 含 如 下 结构 域 : 

DNA 结 合 结构 域 ( DNA-binding domain, DBD ), 与 被 调控 基因 相 邻 的 特定 DNA 序 列 ( 雹 
强 子 或 启动 子 ) 相 结 合 。 能 与 转录 因子 结合 的 DNA 序 列 通常 被 称 为 啊 应 元 件 。 

反 式 激活 结构 域 (trans-activating domain, TAD ), 其 中 包含 其 他 和 蛋白质 ( 如 转录 共 调 控 
子 ) 的 结合 位 点 。 这 些 结合 位 点 通常 被 认为 具有 激活 功能 ( AFs )。 

一 个 可 选 的 信号 感应 结构 域 ( signal sensing domain, SSD ) (例如 ,一 个 配 体 结合 域 ), 生 
可 以 感应 外 部 信号 ,并 且 将 这 些 信号 传导 到 其 余 的 转录 复合 物 ,导致 基因 表达 的 上 调 或 下 
调 。 此 外 , DBD 和 信和 号 感应 结构 域 可 以 存在 于 不 同 的 蛋白 质 中 ,在 转录 复合 物 中 相互 作用 ， 
完成 对 基因 表达 的 调控 。 | 
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图 7-8 转录 因子 的 模块 状 结构 
一 个 转录 因子 氨基 酸 序列 (N 端 在 左 C 端 在 右 ) 示意图。 包含 一 个 DNA 结 合 域 ( DBD ); 信号 感知 域 ( SSD ) 和 一 
个 反 式 激活 结构 域 ( TAD )。 在 不 同 转录 因子 中 这 些 结构 域 的 顺序 和 数量 是 不 同 的 。 另 外 , 反 式 激活 结构 域 
和 信号 感知 结构 域 的 功能 通常 包含 在 相同 的 结构 域 中 


二 、 转 录 因 子 结合 位 点 的 高 通 量 试验 技术 >> 


(一 ) 染色 质 免疫 沉淀 芯片 (Chip 一 chip) 


该 技术 能 够 快速 在 目标 基因 组 的 染色 体 中 确定 特异 DNA 结 合 重 白 的 准确 结合 位 点 ， 
ChIP 心 片 也 可 以 在 一 个 基因 组 的 任何 感 兴 趣 的 区 域内 寻找 染色 体 的 结构 改变 。 

1. ChIP-chip Hie 

(1 ) 在 基因 组 范围 内 确定 基因 转录 因子 的 DNA 结 合 位 点 和 其 他 DNA 结 合 蛋白 或 蛋白 复 
合体 的 DNA 结 合 位 点 。 

(2 ) 染 色 体 活性 状态 的 定量 分 析 。 

(3 ) 组 蛋白 修饰 的 功能 人 研究。 通过 用 酰基 化 或 甲 基 化 的 组 蛋白 的 特异 抗体 和 没有 进行 
修饰 的 组 重 白 的 特异 抗体 ,可 以 确定 与 组 蛋白 修饰 有 关 的 结合 模式 的 变化 。 

( 4) 聚合 酶 活性 的 定量 分 析 。 

( 5 ) 精炼 生物 信息 方法 ,用 功能 数据 来 确定 启动 子 的 位 置 。 

2. 具体 实验 原理 和 实验 步骤 如 图 7-9。 
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图 7-9 染色 质 免疫 沉淀 芯片 流程 图 
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3. CeneChip-TilingArray 技 术 人 简介 | 

Affymetrix 公 司 于 2006 年 1 月 24 日 宣布 推出 GeneChip( R ) 人 类 和 鼠 源 航 合 蕊 片 (TilingAr- 
ray ) 系列 产品 。 该 系列 芯片 研究 范围 大 大 超出 已 知 编码 蛋白 序列 ,可 以 对 整个 人 类 和 小 鼠 
基因 组 进行 系统 的 研究。 研究 人 员 可 以 利用 这 一 芯片 对 转录 因子 和 其 他 蛋白 结合 结构 域 进 
行人 研究 。 最 近 , 更 有 研究 人 员 利 用 Affymetrix 的 储 合 芯片 在 过 去 认为 是 垃圾 DNA 的 区 域 中 间 
找到 了 许多 以 前 从 未 发 现 过 的 转录 活性 区 域 。 髓 合 蕊 片 ( TilingArray ) 是 迄今 为 止 分 辨 率 最 
高 的 基因 忌 片 类 型 ,其 探 针 设计 几乎 涵盖 了 目标 DNA 的 全 部 序列 。 记 今 为 止 , Affymetrix 公 
司 已 经 开发 出 了 人 小 鼠 、 酵 母线 虫 、 拟 南 介 等 模式 生物 的 全 基因 组 Tiling 尽 片 , 为 全 基因 组 
规模 上 研究 目的 和 蛋白 与 核酸 的 相互 作用 提供 了 强 有 力 的 分 析 工 具 。 GeneChip-TilingArray s 
了 全 基因 组 芯片 外 ,还 包括 了 专门 应 用 于 ChIP 一 chip 技 术 中 的 人 启动 子 和 小 鼠 启 动 子 两 款 
心 厂 , 探 针 设计 和 履 盖 了 转录 起 始 位 点 附近 10kb 的 范围 ,可 针对 肿瘤 相关 的 1300 个 基因 , 禾 盖 
汇 围 更 是 增加 到 了 12.5kb。 

1882 年 ,德国 细胞 学 家 弗 莱 明 首 次 公开 发 表 了 细胞 有 丝 分 裂 现 象 的 观察 结果 ,他 的 工作 
也 被 看 做 是 科学 史上 最 重要 的 发 现 之 一 。 除 了 对 有 丝 分 裂 进行 描绘 以 及 命名 之 外 , 弗 莱 明 
还 对 这 一 过 程 中 看 似 起 关键 作用 的 物质 一 一 染色 质 作 了 标记 。 

目前 , 它 是 生物 学 两 个 最 热门 领域 一 一 基因 组 学 和 和 蛋白 组 学 研究 关注 的 焦点 。 但 是 ， 
不 同 之 处 在 于 : 弗 羔 明 采 用 的 是 光学 显微镜 和 污 有 少量 茶 胺 染色 的 玻璃 瓶 对 其 进行 研究 ， 
而 最 新 的 基因 组 阶段 的 染色 质 研究 采用 的 是 尖端 的 技术 一 一 染色 质 免疫 沉淀 作用 测定 法 
( ChIP )。 

基因 组 学 和 生日 组 学 都 将 把 染色 质 作 为 研究 对 象 ,但 两 个 领域 采用 的 方法 各 异 。 在 基 
因 组 学 人 研究 中 ,人 研究 人 员 通 常 从 一 个 重 白 质 开 始 研 究 , 采 用 ChIP 去 找 出 与 基因 组 关联 的 重 白 
质 。 而 堡 日 组 学 人 赋 究 采用 的 是 反 辐 方法 , 先 用 一 个 特殊 的 DNA 序 列 作为 寻找 蛋白 质 的 诱饵 ; 
然后 用 ChIP 去 证 实 : 那些 和 蛋 日 质 就 是 在 体内 与 DNA 序 列 相关 联 的 蛋白 质 。 


(=) 染色 质 免疫 沉淀 -测序 (ChlP 一 Seq) 


ChIP-Seq, 即 染色 质 免 疫 共 沉 演 -测序 技术 ,是 通过 对 染色 质 免 疫 共 沉淀 ( ChIP ) 获得 的 
DNA 卢 段 后 进行 大 规模 测序 ,从 而 得 到 目标 蛋白 结合 的 DNA 序 列 信 息 , 并 定位 到 全 基因 组 
上 。 染 色 质 免疫 共 沉 演技 术 ( chromatin immunoprecipitation , ChIP ) 也 称 结合 位 点 分 析 法 ,是 
研究 体内 蛋 白 质 与 DNA 相互 作用 的 有 力 工具 ,通常 用 于 转录 因子 结合 位 点 或 组 蛋白 特异 性 
修饰 位 点 的 研究 。 将 ChIP 与 第 二 代 测 序 技术 相 结 合 的 ChIP-Seq 技术 ,能 够 高 效 地 在 全 基 
因 组 范围 内 检测 与 组 恒 日 、 转 录 因 子 等 互 作 的 DNA 区 段 。 | 

ChIP-Seq 的 原理 是 : H FGI a Oe (6 Xa EFL IT HE (C ChIP ) 特异 性 地 富 集 目 的 蛋白 
结合 的 DNA 片段 ,并 对 其 进行 纯化 与 文库 构建 ; 然后 对 富 集 得 到 的 DNA 片段 进行 高 通 量 测 
序 。 研 究 人 员 通 过 将 获得 的 数 百 万 条 序列 标签 精确 定位 到 基因 组 上 ,从 而 获得 全 基因 组 范 
围 内 与 组 重 白 、 转 录 因 子 等 互 作 的 DNA 区 段 信 息 。 

l. ChIP-Seq 实 验 流程 (以 Solexa 为 例 ) (图 7-10): 

C1) DV: 对 客户 提供 的 ChIP 样品 (如 果 有 阴阳 参 启动 子 区 域 或 DNA 序列 的 ) 进行 定 
量 检测 ,检测 合格 后 进行 测序 文库 构建 DNA BCH Cluster generation ) 扩 增高 通 量 测序 。 

(2 ) 基 本 数据 分 析 数 据 产 出 统计 : 对 测序 结果 进行 图 像 识别 ( Base calling ), 去 除 污染 及 
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接头 序列 ; 统计 结果 包括 : 测定 的 序列 ( Reads ) KEE. Reads 数量 数据 产量 。 

(3 ) 高 级 数据 分 析 ( 图 7-11 ): 标准 高 级 数据 分 析 内 容 包括 : ChIP-Seq 序列 与 参考 序列 
比 对 ; Peak calling : 统计 样品 Peak 信息 ( 峰 检测 及 计数 .平均 峰 长 度 . 峰 长 中 位 数 ) 统计 样 
fi Uniquely mapped reads 在 基因 上 基因 间 区 的 分 布 情况 及 和 覆盖 深度 ; 给 出 每 个 样品 Peak 
关联 基因 列表 及 GO 功能 注释 ; 在 多 个 样品 间 ,对 与 Peak 关联 基因 做 差异 分 析 。 
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图 7-10 ChIP 一 seq 实 验 流程 示意 图 
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2. ChIP-Seq 技 术 优 势 

( 1 ) 高 通 量 : 一 个 lane 产 生 的 数据 几乎 可 以 涵盖 转录 因子 在 基因 组 上 的 全 部 结合 区 域 。 

(2 ) 低 成 本 : 单个 read 的 测序 和 分 析 费 用 仅 为 传统 测序 法 的 1100 ; 只 有 全 基因 组 ChIP- 
chip 的 1/30 到 1/10。 

(3 ) 灵 活 度 高 : 任何 物种 任何 序列 都 可 进行 实验 ,无需 已 知 的 基因 组 序列 信息 。 

(4 ) 高 可 信 度 : 比 ChIP-Chip 更 低 背 景 水 平和 高 信 噪 比 确保 高 可 信和 度 的 实验 绪 采 。 

(5) 信 噪 比 高 : 背景 比 芯片 结果 ( ChIP-chip ) 低 ,每 个 ChIP 样 本 可 获取 数 百 万 个 有 效 序 
列 标签 ,利用 数 百 万 次 计数 将 真实 事件 与 假 信号 区 分 开 。 

06) 检测 范围 广 : 在 整个 基因 组 内 定位 体内 结合 位 点 ,包括 芯片 无 法 检测 的 重复 序列 
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区 域 。 - | 

(7 ) 定 位 精确 度 高 : 在 50 bp 以 内 定位 结合 位 点 。 

3. ChIP-Seq 应 用 领域 

由 于 ChIP-Seq 的 数据 是 DNA 测序 的 结果 ,为 研究 者 提供 了 进一步 深度 挖掘 生物 信息 
的 资源 ,人 研究 者 可 以 在 以 下 几 方 面 展开 人 研究 : 

C1) FUT DNA 链 的 某 一 特定 位 置 会 出 现 何 种 组 重 晶 修饰。 

(2 ) 检 测 RNA polymerase 了 [及 其 他 反 式 因子 在 基因 组 上 结合 位 点 的 精确 定位 。 

(3 ) 人 研究 组 重 日 共 价 修饰 与 基因 表达 的 关系 。 

( 4) CTCF 转录 因子 人 研究 。 


(=) ChIP-tiling 





ChIP-tiling 将 ChIP 技 术 与 车 片 式 心 片 (tiling array ) 相 结 合 , 它 与 ChIP-chip 不 同 之 处 就 在 
于 所 采用 的 芒 片 不 同 。 炙 片 式 心 片 对 基因 组 的 履 盖 率 更 高 。ChIP-seq 将 ChIP 技 术 与 高 通 量 
的 测序 技术 相 结 合 , ChIP 实 验 中 得 到 的 与 转录 因子 结合 和 未 结合 的 片段 可 以 直接 被 测序 。 
与 基于 生物 必 片 的 方法 比较 , ChIP-seq 有 如 下 优点 : 也 它 可 以 应 用 于 所 有 已 测序 的 基因 组 ， 
IAN BEAD TT EF A AE Sr SUE sob; CI 它 直 接 通过 测序 确定 DNA 的 数量 ,从 而 
避免 了 DNA 序 列 与 生物 必 片 杂交 过 程 中 产生 的 噪音 ; 色 它 测 出 的 转录 因子 结合 位 点 是 真 
正 无 偏 的 (测序 的 方法 可 以 覆盖 整个 基因 组 ,而 生物 芯片 的 方法 却 限于 被 选 入 制作 芯片 的 序 
列 集合 ); 9 它 的 灵敏 度 更 高 ,能 够 获得 结合 量 较 低 转录 因子 结合 位 点 。 同 时 , ChIP-seq 亦 有 
不 足 之 处 ,如 果 被 测序 的 片段 在 基因 组 多 次 重复 , 则 无 法 对 其 是 否 为 结合 位 点 做 出 推断 。 


三 、 转 录 因 子 结合 位 点 相关 数据 库 : TRANSFAC, JASPAR, 
SELEX DB >> 


随 着 生物 实验 所 验证 的 转录 因子 结合 位 点 的 不 断 积累 ,目前 出 现 了 专门 收集 TFBS 相 
关 信 息 且 各 具 特 色 的 数据 库 , 详 见 表 7-10。TRANSFAC 是 真 核 生物 转录 调控 信息 的 数据 
库 , 包 含 转录 因子 ,转录 调控 关系 以 及 转录 因子 结合 位 点 等 相关 信息 ,涵盖 的 物种 有 酵母 、 
拟 南 芥 、 线 虫 . 果 晶 、 大 鼠 . 小 鼠 、 人 等 。 它 通过 文献 挖掘 来 收集 数据 ,并 有 严格 的 质量 控制 。 
TRANSFAC 中 收录 的 TFBS 都 是 经 过 实验 验证 的 ,并 且 在 每 一 个 结合 位 点 的 条 目 中 都 标注 了 
相应 的 实验 技术 ,实验 条 件 并 对 该 TFBS 的 可 信和 度 进 行 了 评价 。TRANSFAC 中 不 仅 有 TFBS 的 
标注 ,还 提供 了 相应 转录 因子 与 靶 基因 的 信息 ,如 物种 、 蛋 白质 一 级 序列 蛋白质 功 能 域 等 。 
TRANSFAC 11.3 中 , 共 收 集 了 10 018 个 转录 因子 ,以 及 20 431 个 转录 因子 结合 位 点 ,为 TFBS 预 
测算 法 提供 了 高 质量 的 训练 集 和 验证 集 。 


表 7-10 转录 因子 结合 位 点 数据 库 


数据库 RP RR md 
TRANSFAC http: //www.gene-regulation.com 
JASPAR http: //jaspar.cgb.ki.se 


SELEX_DB http: //wwwmgs.bionet.nsc.ru/mgs/systems/selex/ 
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续 表 

Ee a 网 址 

HTPSELEX http: //www.isrec.isb-sib.ch/htpselex/ 

PlantTFDB http: //planttfdb.cbi.pku.edu.en 

AGRIS http: //arabidopsis.med.ohio-state.edu 

SCPD http: //rulai.cshl.edu/SCPD 

TRED http: //rulai.cshl.edu/TRED 

ITFP http: //itfp.biosino.org/itfp 


JASPAR 收 录 了 多 细胞 真 核 生物 转录 因子 结合 位 点 的 信息 ,并 以 矩阵 的 形式 保存 ,这 些 
和 矩阵 是 由 实验 验证 的 结合 位 点 统计 得 来 的 。JASPAR 包 括 3 个 子 库 , JASPAR CORE, JASPAR 
FAM, JASPAR PHYLOFACTS。 目 前 , JASPAR CORE 中 包含 123 个 频数 矩阵 ,和 矩阵 中 的 元 素 
表示 某 个 位 置 上 出 现 某 个 碱 基 的 频数 , JASPAR FAM 中 将 转录 因子 按 其 DNA 结 合 域 的 结构 
特性 分 成 耕 干 家 族 ,并 提供 了 11 个 “家 族 共 有 ”的 TFBS 的 位 置 权 重 矩 阵 , 为 从 结构 角度 进行 
TFBS 人 研究 提供 了 方便 , JASPAR PHYLOFACTS 中 包含 174 个 从 在 进化 上 保守 的 基因 上 游 元 件 
中 提取 的 频数 矩阵。 值得 一 提 的 是 ,与 商业 数据 库 TRANSFAC 不 同 , JASPAR 是 完全 开放 的 
资源 , JASPAR 与 TRANSFAC 的 男 一 个 主要 区 别 是 , JASPAR 中 含有 的 TFBS 信 息 是 非 元 余 的 ， 
即 一 个 转录 因子 对 应 至 多 一 个 TFBS 条 目 。 

SELEX_DB 和 HTPSELEX 中 收集 了 经 SELEX 实 验 验 证 的 TFBS 人 信息。 它们 不 同 于 综合 型 
的 数据 库 ,除了 实验 验证 的 结合 位 点 信息 ,还 尽 可 能 详尽 的 提供 了 实验 中 间 产 物 。 此 类 数据 
库 包 含 的 TFBS 相 对 较 少 ,但 针对 每 一 个 TFBS 提 供 了 更 为 丰富 的 实验 信息 ,这 为 致力 于 建立 
更 精准 TFBS 模 型 的 研究 者 提供 了 宝贵 的 数据 。 

另外 ,还 有 一 些 收集 特定 物种 转录 因子 以 及 TFBS 信 息 的 数据 库 : PlantTFDB 中 包含 22 
种 植物 中 的 26 402 个 转录 因子 的 信息 ,AGRIS 中 包含 了 模式 生物 拟 南 芥 的 转录 因子 及 其 结合 
位 点 的 信息 , SCPD 是 收集 酵母 启动 子 区 域 序列 的 数据 库 ,里 面包 含 转录 起 始 位 点 以 及 转录 
因子 结合 位 点 的 注释 , TRED 是 收集 哺乳 动物 转录 调控 元 件 的 数据 库 , 对 人 小 鼠 、 大 鼠 等 物 
种 的 启动 子 区 域 有 相对 完整 的 注释 , ITFP 中 收集 了 哺乳 动物 的 转录 因子 与 靶 基 因 之 间 的 调 
控 关 系 信息 。 


四 、 转 录 因子 结合 位 点 模型 的 建立 及 分 析 >> 


最 基本 的 TFBS 模 型 是 一 致 性 序列 , 即 对 结合 位 点 中 每 个 位 置 选择 一 个 最 可 能 出 
现 的 核 苷 酸 组 成 一 个 序列 来 表达 TFBS。 比 如 某 个 转录 因子 有 5 个 结合 位 点 TACGAT、 
TATAAT, GATACT, TATAGA, 、TATGTT ,那么 它 的 一 致 性 序列 就 是 TATAAT。 这 样 的 表 
达 方 式 既 牺牲 了 特异 性 ,也 丢失 了 敏感 性 。 擅 述 TFBS 的 一 个 和 用 模型 是 位 置 权 重 和 矩阵 
模型 ( position weight matrix, PWM )。 如 果 TFBS 长 度 为 L,PWM 就 是 一 个 4 行 L 列 的 和 矩阵， 
这 个 矩阵 中 每 行 对 应 大 一 种 核 背 酸 , 每 列 对 应 着 TFBS 中 的 一 个 位 置 ,第 i 行 第 j 列 的 元 素 
是 TFBS 中 第 j 位 上 出 现 核 将 酸 i 的 概率 。 一 个 长 度 为 上 的 序列 与 该 转录 因子 结合 的 概率 即 
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为 各 个 位 置 上 核 苷 酸 对 应 概率 的 乘积 。 某 段 序 列 与 转录 因子 结合 的 概率 越 大 ,就 说 明 
它 与 转录 因子 相 结合 的 结合 能 力 越 强 。 这 个 模型 有 两 个 局 限 : 一 是 该 模型 中 TFBS 的 长 
度 是 固定 不 变 的 ; 二 是 该 模型 假定 TFBS 不 同位 置 间 相 互 独立 ,每 个 核 车 酸 对 转录 因子 与 
DNA 序 列 的 结合 能 贡献 是 独立 的 , 即 所 谓 的 可 加 性 假设 。Benos 等 的 分 析 表 明 ,虽然 可 
加 性 假设 并 不 总 是 成 立 , PWM 模型 并 不 完美 ,但 它 仍 然 是 对 TFBS 结 合 能 力 的 一 个 较 好 
的 近似 。 

近年 来 ,有 很 多 研究 者 从 实验 和 计算 的 角度 对 “可 加 性 假设 ” 是否 成 立 的 问题 进行 讨论 ， 
他 们 的 研究 都 表明 , 某 些 TFBS 上 的 不 同位 置 的 核 苷 酸 之 间 表 现 出 明显 的 相关 性 。 为 了 增强 
模型 的 预测 能 力 ,研究 者 答 试 放宽 可 加 性 假设 ,提出 包含 相关 性 的 模型 来 描述 TFBS。Barash 
等 提出 用 贝 叶 斯 网 络 模型 来 描述 TFBS, Zhou 等 将 PWM 加 以 扩展 ,提出 了 广义 位 置 权 重 矩 阵 
( generalized position weight matrix, GPWM ), 该 模型 考虑 了 互 不 重合 的 任意 两 个 位 置 间 的 相 
关 性 ,他 们 发 现 大 约 25% 已 知 TFBS 有 比较 强 的 位 置 相 关 性 ,而 应 用 新 模型 CPWM 后 ,大 约 有 
80% 的 TFBS 预 测 识 别 率 会 有 所 提高 , Gunewardena 等 提出 MonoDi-Nucleotide 模 型 ,该 模型 假设 
TFBS 上 的 任意 一 个 核 苷 酸 , 或 者 是 独立 于 其 他 核 苷 酸 ,单独 贡献 结合 能 ,或 者 是 与 相 邻 的 一 
个 核 苷 酸 相互 作用 共同 贡献 结合 能 ,并 采用 动态 规划 算法 进行 优化 , 选 出 TFBS 中 有 相互 作用 
的 相 邻 核 苷 酸 对 , Sharon 等 提出 了 “特征 模块 模型 ”( feature motif model, FMM )。FMM 本 质 上 
说 是 一 个 对 数 线性 模型 ( log-linear model ), 它 假设 一 段 DNA 序 列 是 TFBS 的 概率 的 对 数 与 这 段 
序列 “特征 ”的 加 权 和 成 正比 。 该 模型 中 的 “特征 ” 指 的 是 将 TFBS 序 列 映射 为 数值 的 函数 ， 
此 特征 可 能 与 一 个 核 背 酸 有 关 , 也 可 能 多 个 核 车 酸 有 关 , 因 此 能 够 描述 不 同位 置 上 核 车 酸 间 
的 相关 性 。 特 征 定义 的 灵活 性 使 得 FMM 模 型 可 以 描述 任意 多 个 位 置 上 核 苷 酸 间 的 相关 性 ， 
为 了 避免 引入 与 结合 能 无 关 的 特征 ,在 参数 估计 的 同时 进行 变量 选择 ,从 而 避免 过 度 拟 合 。 

相对 于 PWM, 这 些 模 型 在 不 同 程度 上 人 允许 了 TFBS 不 同位 置 上 核 苷 酸 间 的 相关 性 ,但 也 
对 相关 性 有 一 定 的 限制 ,如 贝 叶 斯 网 络 有 “无 环 假设 -, GPWM 仅 考虑 了 任意 两 个 位 置 上 核 
苷 酸 间 的 相关 性 ,而 MonoDi-Nucleotide 模 型 只 考虑 了 相 邻 的 两 个 位 置 上 核 苷 酸 间 的 相关 性 。 
虽然 ,从 理论 上 说 FMM 可 以 描述 任意 的 相关 性 ,但 在 应 用 中 仍 受 到 样本 量 的 限制 ,实际 上 作 
者 也 只 考虑 了 可 以 由 两 个 核 车 酸 决 定 的 特征 。 事 实 上 ,在 样本 量 有 限 的 情况 下 ,模型 描述 的 
相关 性 越 复杂 , 它 的 表达 能 力 就 越 强 ,但 引入 的 参数 也 就 越 多 , 越 容 易 造 成 过 度 拟 合 的 现象 ， 
影响 模型 的 稳健 性 和 预测 能 力 。 上 面 提 到 的 模型 都 在 对 PWM 模型 有 所 改进 的 情况 下 CEPR 
型 表达 能 力 和 稳健 性 之 间作 了 不 同 程度 的 折 中 。 





五 .利用 从 头 预 测算 法 识别 转录 因子 结合 位 点 >) 


de novo 预 测算 法 的 基本 逻辑 是 ,以 一 组 共 调 控 的 基因 作为 输入 ,用 计算 方法 搜索 在 
这 些 基因 的 上 游 调控 序列 中 富 集 的 motif。 此 类 算法 有 很 多 ,如 基于 EM 算法 的 MEME JE 
于 贪 林 算法 的 Consensus, 基于 “ 词 穷 举 法 ”( word enumeration ) 的 Seeder, 基于 吉 布 斯 抽 
样 ( Gibbs Sampler ) 的 AlignACE 、MotifSampler、BioProspector 等 等 ,详细 的 在 线 资 源 列 表 
见 表 7-11。 在 多 种 软件 并 存 的 情况 下 ,它们 之 间 预 测 准确 率 的 比较 成 为 研究 者 关心 的 
问题 。 然 而 ,由 于 对 转录 调控 过 程 、 转 录 因 子 与 DNA 结 合 过 程 缺 乏 透 彻 的 了 解 ,缺乏 标 
准 数据 ,缺乏 合适 的 评价 标准 ,这 个 问题 并 不 容易 回答 。2005 年 , Tompa 等 对 13 种 de novo 
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预测 软件 进行 了 系统 的 评测 。 他 们 从 TRANSFAC 中 提取 TFBS 信 息 构 建 正 负 样本 集 , 应 
用 这 些 软件 做 TFBS 预 测 ,并 提出 多 种 指标 (从 单个 核 苷 酸 , TFBS 整 体 两 个 不 同 的 层次 衡 
量 预测 算法 的 敏感 度 等 ) 来 评测 算法 的 表现 。 他 们 的 分 析 表 明 : 各 种 软件 之 间 没 有 绝对 
的 优 劣 ,软件 的 绝对 检测 效果 都 不 是 太 高 。 在 Tompa 的 标准 下 (如 果 预 测 出 的 TFBS 与 真 
TFBS 有 重合 ,并 且 重 匡 的 长 度 超过 真 TFBS 长 度 的 1/4, 就 认为 预测 是 准确 的 ),13 个 软件 
中 最 高 的 灵敏 度 ( Sensitivity ) 为 0.22。 男 外 ,不 同 软 件 的 预测 效果 对 不 同 的 数据 集 、 不 同 
的 物种 有 明显 的 偏好 性 ,而 且 大 部 分 软件 在 酵母 数据 上 的 效果 明显 高 于 其 他 物种 ,这 与 
TRANSFAC 中 酵母 数据 的 相对 丰富 是 分 不 开 的 ,如 果 人 允许 软件 同时 预测 出 两 个 motif, 预 
测 的 准确 率 有 可 能 得 到 提高 。 最 近 Wijaya 等 开发 的 MotifVoter 通 过 综合 不 同 预测 算法 的 
结果 进行 预测 。 在 Tompa 等 构造 的 测试 集 上 , MotifVoter 的 敏感 度 比 单个 的 预测 算法 提 
高 了 275%。 
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”软件 名 称 | du s 

MEME http: //meme.sdsc.edu/ 

Consensus http: //bifrost.wustl.edu/consensus 

Seeder http: //www.cpan.org 

AlignACE http: //atlas.med.harvard.edu/ 

MotifSampler http: //www.esat.kuleuven.ac.be/~dna/Biol/Software.html 
BioProspector http: //ai.stanford.edu/~xsliu/BioProsputor/ 

MotifVoter http: //www.comp.nus.edu.sg/-bioinfo/MotifVoter 


另外 ,考虑 到 转录 过 程 是 由 多 个 转录 因子 组 合 调 控 的 , Zhou 等 提出 了 CisModule 算 法 
来 预测 多 个 TFBS 构 成 的 模块 。 在 模拟 数据 集 以 及 真实 数据 上 , CisModule 都 能 准确 的 预 
测 出 TFBS 模 块 ,而 且 对 单独 的 TFBS 的 敏感 度 也 优 于 普通 的 de novo 预 测算 法 (在 与 果 蝇 早 
期 发 育 相 关 的 基因 构成 的 数据 集 上 , CisModule 灵 敏 度 达 到 56%, 而 MEME 在 相同 的 数据 集 
上 的 灵敏 度 仅 为 9% ), 这 说 明 利用 多 个 转录 因子 的 合作 信息 能 够 提高 预测 的 准确 性 。 关 
于 整合 组 合 调 控 信息 预测 TFBS 的 相关 算法 , Hannenhalli 在 最 近 的 一 篇 综述 中 有 更 详细 的 
介绍 。 

de novo 预 测算 法 有 局 限 性 , 它 依 赖 于 预先 构建 的 共 调 控 的 基因 集合 。 这 个 基因 集合 的 
构建 通常 来 自 于 基因 功能 的 分 析 ,比如 生物 芯片 的 表达 数据 , ChIP-chip 实 验 等 。 在 很 多 情 
况 下 ,这 些 功 能 信息 是 不 易 获 得 的 ; 另外 ,对 “ 共 调 控 ” 信息 的 依赖 ,也 使 得 de novo 检 测算 法 
局 限于 对 单 物 种 的 分 析 。 


六 、 结 合 Chip-seq 等 高 通 量 实验 数据 的 转录 因子 结合 位 点 预测 
方法 》》 


随 着 基因 芯片 等 高 通 量 数据 的 出 现 ,计算 方法 在 转录 因子 结合 位 点 的 分 析 中 得 到 了 广 
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泛 的 应 用 。 对 转录 因子 结合 位 点 的 计算 研究 可 分 为 两 类 问题 : 第 一 类 问题 是 通过 收集 可 能 
被 同一 转录 因子 调控 的 基因 启动 子 序列 ,在 其 中 寻找 具有 统计 显著 性 的 短片 段 , 作 为 转录 因 
子 可 能 的 结合 位 点 ; 第 二 类 问题 是 根据 若干 已 知 的 转录 因子 结合 位 点 的 模 体 ,在 所 研究 基因 
的 启动 子 区 域内 搜索 相应 转录 因子 可 能 的 结合 位 点 。 

一 张 基 因 芯 片 (microarray ) 可 以 同时 检测 数 万 个 基因 在 某 个 组 织 样本 中 的 表达 值 ,对 
在 不 同 条 件 下 获得 的 基因 芯片 数据 进行 聚 类 分 析 ,我 们 可 以 得 到 一 组 或 几 组 有 相似 表达 
模式 的 基因 。 它 们 在 特定 的 组 织 ,或 者 特定 发 育 阶段 被 同时 激活 或 同时 抑制 。 由 此 推断 ， 
这 些 基 因 很 可 能 受到 共同 转录 因子 的 调控 。 相 同 的 转录 因子 在 这 些 基 因 局 动 子 区 域 上 的 
结合 位 点 应 当 是 相同 或 者 相似 的 。 通 过 计算 方法 寻找 这 些 相 似 的 转录 因子 结合 位 点 ( 模 
体 ), 称 为 转录 因子 结合 位 点 的 识别 。 把 输入 启动 子 序列 看 作 一 些 杂 乱 无 章 的 背景 噪声 ， 
模 体 可 以 看 作 隐 藏 在 背景 噪声 中 的 有 规律 的 信号 。 通 过 计算 方法 ,我 们 布 望 找到 那些 出 
现 次 数 明 显 高 于 其 他 背景 噪声 的 信号 。 这 里 我 们 需要 注意 两 点 ,第 一 是 我 们 需要 一 组 可 
能 含有 共同 调控 元 件 的 序列 ,从 中 发 现 某 种 频繁 出 现 的 “信和 号” ,不 可 能 只 从 一 个 序列 中 
找到 模 体 ; 第 二 是 输入 序列 中 的 “信号 ”要 足够 强 , 可 以 同 背 景 噪声 区 分 。 这 样 一 组 共 调 
控 的 基因 除了 可 以 通过 对 基因 心 片 数据 进行 分 析 得 到 ,也 可 以 通过 对 已 有 知识 进行 总 结 
得 到 。 比 如 处 于 同一 个 通路 ( pathway ) 上 的 功能 相关 的 基因 也 可 能 被 同一 转录 因子 调控 。 
找到 一 组 共 调 探 的 基因 之 后 ,首先 遇 到 的 一 个 问题 就 是 如 何 确定 基因 的 局 动 子 区 。 一 般 
认为 ,转录 因子 结合 位 点 主要 在 转录 起 始 位 点 ( transcription start sites, TSSs ) 附近 出 现 , 但 
还 有 一 些 转录 因子 结合 在 基因 上 游 很 远 的 区 域 (被 称 为 远程 作用 )。 根 据 研 究 问 题 的 不 同 ， 
启动 子 序列 的 长 度 可 以 取 几 百 到 几 千 个 碱 基 不 等 ,通常 选取 转录 起 始 位 点 附近 1000~2000 
个 碱 基 的 长 度 作 为 司 动 子 区 (例如 ,转录 起 始 位 点 上 游 1000 和 下 游 200 个 碱 基 )。 上 序列 太 
短 会 丢失 部 分 结合 位 点 。 如 果 序 列 取 的 过 长 ,在 包含 了 少量 真实 结合 位 点 的 同时 , 却 引入 
了 大 量 的 育 景 噪声 ,使 真正 的 转录 因子 结合 位 点 淹没 在 噪声 中 无 法 区 分 。 近 年 来 , ChIP- 
chip 和 ChIP-seq 技术 在 转录 因子 结合 位 点 的 分 析 中 得 到 了 广泛 应 用 。 与 由 基因 必 片 和 功 
能 相关 获得 的 包含 共同 转录 因子 结合 位 点 的 局 动 子 序列 相 比 , ChIP-chip 和 ChIP-seq 确 
定 的 包含 共同 结合 位 点 的 区 域 更 加 准确 。 得 到 一 组 含有 共同 结合 位 点 的 候选 局 动 子 序列 
后 ,就 可 以 利用 已 有 的 计算 方法 进行 结合 位 点 的 识别 ,然后 对 结果 进行 后 续 处 理 并 解释 它 
们 的 生物 意义 。 在 这 里 候选 序列 集合 起 到 了 “训练 集 ” 的 作用 , 它 的 选取 对 后 续 分 析 结 果 
的 影响 非常 大 ,应 尽量 选择 包含 信号 可 能 性 大 的 序列 ,序列 的 数目 以 数 十 到 数 百 条 为 宜 ， 
如 采 序 列 过 少 ,可 以 考虑 加 入 较 近 的 耳 系 同 源 序列。 图 7-12 所 示 为 转录 结合 位 点 识别 的 
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图 7-12 MA (motif) 基本 分 析 流 程 示 意图 
来 源 自 LI Ting-ting, JIANG Bo, WANG Xiao-wo, et.al., tutorial for computational analysis of 
transcription factor binding sites, acta biophysica sinica,2008.24 : 334—347. 
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Section 4 Bioinformatics Analysis on Alternative Splicing 


一 、 可 变 剪接 的 调控 机 制 >>> 


可 变 剪 接 是 指 从 一 个 mRNA 前 体 中 通过 不 同 的 剪接 方式 (选择 不 同 的 剪接 位 点 组 合 ) 产 
生 不 同 的 mRNA 剪接 异 构 体 的 过 程 。 可 变 剪 接 是 调节 基因 表达 和 产生 重 日 质 组 多 样 性 的 重 
要 机 制 。 剪 接 过 程 受 多 种 顺 式 作用 序列 和 反 式 作用 因子 相互 作用 调节 。 包 括 SR 和 hnRNP 
家 族 重 白 在 内 的 多 种 剪接 因子 参与 这 一 调 市 过 程 。 转 录 机 器 ( machine ) 也 参与 可 变 剪接 的 
Val To 

(一 ) 可 变 剪接 与 蛋白 质 组 多 样 性 


据 预 测 ,人 类 基因 组 可 能 有 约 35 000 个 基因 , 果 蝇 约 14 000 个 ,而 简单 的 模式 生物 线虫 
约 19 000 个 基因 。 生 物 的 复杂 性 与 其 基因 组 基因 数量 似乎 存在 明显 差异 ,原因 在 和 蛋白质 组 。 
基因 重 排 、.RNA 编 辑 和 可 变 剪 接 等 机 制 可 以 从 一 个 基因 产生 多 种 重 白 , 从 而 使 重 昌 质 组 中 重 
日 质 的 数量 超过 基因 组 中 基因 的 数量 。 其 中 ,从 影响 的 基因 数量 和 生物 种 类 范围 来 看 ,可 变 
访 接 是 扩大 重 日 质 多 样 性 的 最 重要 的 机 制 。 


(=) AT SSSA IA 


1. 5%. J.1977^E Walter Gilbert#é th n] ZE BY PERE , 19804F BaltimorefE/) FI gM J& [4] ZB 
第 一 个 可 变 前 接 产 生 膜 型 分泌 型 IgM ,至 2001 年 ,用 经 典 分 子 生 物 学 实验 的 方法 研究 ,一 共 
仅 发 现 了 数 百 种 有 可 变 剪 接 的 基因 。 并 推测 在 高 级 真 核 细胞 生物 约 5% 的 基因 有 可 变 甬 接 。 

2. 3$5%~60%。 高 通 量 的 基因 组 测序 和 EST 测 序 ,使 得 生物 信息 学 的 方法 研究 可 变 剪 接 
成 为 可 能 。EST 来 源 于 完全 加 工 的 mRNA ,它们 提供 了 一 个 广泛 的 mRNA 多 样 性 的 样品 库 。 
这 种 多 样 性 可 以 用 计算 机 分 析 。 最 近 两 年 ,多 个 研究 小 组 通过 不 同 的 生物 信息 学 的 方法 ， 
从 整个 人 基因 组 的 水 平 进行 分 析 , 结 果 一 致 显示 约 35%~60% 的 人 基因 有 可 变 剪 接 形 式 。 而 
上 且 ,由 于 对 大 多 数 基 因 来 说 ,每 个 基因 只 测 到 了 很 少 几 个 EST 甚 至 没有 EST; EST 不 是 全 长 的 
mRNA ,多 位 于 mRNA 的 $” 和 3 ” 端 ; EST 来 源 于 有 限 的 组 织 和 发 育 阶段 ; 很 有 可 能 存在 有 更 
多 的 可 变 剪 接 而 在 现在 的 EST 库 中 没有 显示 。 因 此 实际 可 变 剪 接 的 频率 可 能 比 预 测 的 更 高 。 
这 还 有 竺 于 建立 新 的 高 通 量 的 分 子 生 物 学 方法 ,如 生物 必 片 的 方法 ,以 进一步 实验 验证 。 
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” (三 ) 单个 基因 可 变 剪 接 产 生 的 多 样 性 


一 个 基因 可 以 通过 如 下 几 种 方式 产生 多 个 转录 体 , 如 不 同 的 转录 起 始 位 点 ,可 变 剪接 ， 
选择 不 同 的 加 尾 信 号 位 点 , RNA 编 辑 等 。 可 变 剪接 包括 3 种 类 型 : 四 内 含 子 的 保留 ; @ 可 变 
外 显 子 的 保留 或 切除 ; (33” 和 5” 剪接 位 点 的 转移 ( shift ) 导致 外 显 子 的 增长 或 缩短 。 可 变 剪 
接 对 和 集 日 质 结构 的 影响 也 是 多 样 性 的 ,如 多 肽 链 中 一 个 到 数 百 个 氨基 酸 的 增加 或 减少 ; 某 功 
能 域 的 有 无 ; 如 果 可 变 剪接 使 读 码 框架 改变 , 则 可 能 无 法 有 效 翻译 , mRNA 被 监视 系统 降解 。 

单独 一 个 基因 通过 可 变 剪 接 产 生 的 十 几 种 剪接 异 构 体 的 现象 很 第 见 。 有 些 基因 甚至 
能 够 产生 成 千 上 万 种 剪接 异 构 体 。 最 突出 的 例子 是 果 晶 ( Drosophila melanogaster ) 的 Dscam 
基因 ,可 以 通过 可 变 前 接 产生 38 000 多 种 mRNA 异 构 体 。Dscam 基 因 编 码 一 个 神经 元 轴 突 
定 问 受 体 , 它 细胞 外 有 一 个 由 10 个 免疫 球 和 蛋白 重复 序列 组 成 的 结构 域 ,第 2,3,7 个 免疫 球 和 蛋 
白 重 复 序列 分 别 由 第 4,6,9 号 外 显 子 编码 ,4 号 外 显 子 盒 ( cassette ) 有 12 个 变异 体 ,6 号 外 显 
子 有 48 个 变异 体 ,9 号 外 显 子 有 33 个 变异 体 , 再 加 上 17 号 外 显 子 的 2 个 变异 体 。 每 个 成 熟 的 
Dscam mRNA 分 别 只 有 一 个 有 4,6,9,17 号 外 显 子 的 变异 体 , 由 此 理论 推测 Pscar 基因 共有 
12x48x33x2=38 016 种 剪接 异 构 体 。 对 Dscam 基 因 50 个 cDNA 克隆 随机 测序 发 现 了 49 种 
不 同 的 剪接 异 构 体 , 说 明 实际 存在 的 剪接 异 构 体 即 使 没有 理论 那么 多 ,也 至 少 有 上 二 种 。 人 
的 Neurexins, n-Cadherins , calcium-activated potassium channels 等 基因 也 有 类 似 的 高 度 多 样 
的 剪接 异 构 体 。 

上 述 现象 非常 类 似 于 淋巴 细胞 TCR 或 免疫 球 蛋 白 的 胚 系 基 因 重 排 ,不 同 之 处 在 于 后 者 
发 生 在 DNA 水 平 , 前 者 发 生 在 RNA 水 平 。 基 因 重 排 产 生 的 高 度 多 样 抗原 受 体 库 可 以 识别 高 
度 复杂 的 自身 和 异己 抗原 。 而 Dscam 基 因 的 转录 异 构 体 可 能 有 神经 系统 的 发 育 有 关 。 神 经 
元 的 定 癌 迁移 和 相互 连接 可 能 是 发 育 过 程 中 最 复杂 的 事件 。 果 蝇 约 有 25 000 个 神经 元 ,要 
使 它们 生长 的 轴 罕 准确 地 、 可 重复 地 到 达 目 的 ,使 这 些 神 经 元 准确 地 连接 在 一 起 ,必然 需要 
一 个 特殊 的 系统 。Dscam 基 因 的 38 000 多 种 mRNA 异 构 体 ,每 个 异 构 体 各 编码 一 个 不 同 的 受 
体 , 每 个 受 体 具 有 识别 不 同 分 子 定 问 信号 的 潜能 ,从 而 有 能 力 指 导 各 个 生长 的 轴 突 到 达 准 确 
的 位 置 。 

如 果 将 可 变 前 接 与 其 他 RNA 加 工 过 程 ( 如 RNA 编 辑 ) 联系 起 来 共同 考虑 ,基因 产物 会 更 
复杂 。 例 如 NB HY parade Al ( voltage-gated action potential sodium channel ) 有 13 个 可 变 外 显 
子 , 可 编码 1536 种 不 同 的 mRNA ,为 外 , para 的 转录 体 还 要 经 过 在 11 个 已 知 位 点 的 RNA 编 辑 ， 
这 样 理论 上 一 共 可 以 产生 1 032 192 个 不 同 的 para 转 录 异 构 体 。 

根据 受 可 变 剪接 影响 的 基因 的 概率 ,以 及 单个 基因 可 能 产生 的 可 变 剪接 体 的 数目 ,足以 
表明 可 变 剪接 对 重 日 质 组 多 样 性 的 巨大 影响 。 


(四 ) 可 变 剪 接 的 功能 和 生物 学 意义 


1. 可 变 剪 接 是 在 RNA 水 平 调控 基因 表达 的 机 制 之 一 一 个 基因 通过 可 变 前 接 产 生 多 个 
转录 异 构 体 , 各 个 不 同 的 转录 异 构 体 编码 结构 和 功能 不 同 的 蛋白 质 , 它 们 分 别 在 细胞 /个 体 
分 化 发 育 不 同 阶段 ,在 不 同 的 组 织 , 有 各 自 特异 的 表达 和 功能 。 因 此 ,可 变 剪 接 是 一 种 在 转 
录 后 RNA 水 平 调控 基因 表达 的 重要 机 制 。 

目前 已 知 的 可 变 剪 接 异 构 体 中 ,只 有 一 小 部 分 明确 确定 了 功能 和 生物 学 意义 。 第 一 个 
确定 的 可 变 剪 接 异 构 体 功能 是 IgM 基因 ,其 末端 最 后 两 个 外 显 子 的 可 变 甬 接 ,决定 了 所 编码 
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的 膜 型 /分 泌 型 IgM 的 产生 。 最 著名 的 例子 是 果 蝇 性 别 决 定 系统 ,在 此 系统 中 ,至 少 5 个 基因 
(sxl, tra, msl2, dsx, ju) 转录 体 的 可 变 剪 接 级 联 反应 最 终 决定 了 果 蝇 雄性 和 雌性 性 别 特征 
的 表达 。 有 些 基 因 , 可 变 剪 接 造 成 的 重 日 质 异 构 体 之 间 功 能 上 的 差异 没有 被 实验 检测 出 来 。 
不 过 阴性 的 结果 不 能 代表 没有 功能 差异 ,只 是 目前 没有 检测 出 来 而 已 。 也 有 很 多 异 构 体 造 
成 读 码 框架 改变 ,不 能 被 翻译 为 绰 白 质 ,而 是 直接 被 降解 了 。 真 核 生 物 也 有 mRNA 监 视 系统 
NMD( nonsense-mediated degradation ), 检 测 mRNA 中 异常 提前 出 现 的 终止 密码 子 ,一 经 发 现 ， 
立即 降解 异常 的 mRNA ,防止 其 翻译 。 在 大 多 数 情 况 下 ,检测 可 变 剪 接 造 成 的 和 蛋白质 异 构 体 
之 加 功能 上 的 差异 的 实验 还 没有 开展 。 最 近 发 展 的 RNAi 技 术 , 可 以 适应 高 通 量 的 从 功能 基 
因 组 水 平 研 究 各 基因 可 变 剪 接 异 构 体 的 功能 的 要 求 。2000 年 已 经 有 人 将 RNAi 技 术 应 用 于 模 
式 生物 线虫 的 可 变 剪接 异 构 体 的 大 规模 研究 上 ( 目前 已 经 大 量 开 始 用 于 哺乳 动物 系统 )。 

2. 多 样 性 与 复 末 性 ”可 变 剪 接 是 从 相对 简单 的 基因 组 提高 蛋白 质 组 多 样 性 的 重要 机 
制 , 重 日 质 组 的 多 样 性 与 多 细胞 高 等 生物 的 复杂 性 相 适 应 。 从 可 变 剪 接 涉 及 的 基因 分 布 格 
局 分 析 , 可 变 剪 接 多 发 生 在 参与 信号 传导 和 表达 调节 等 复杂 过 程 的 基因 上 ,如 受 体 \ 信 号 传 
PERTE )、 转 录 因 子 等 。 对 个 体 分 化 发 育 和 一 些 关 键 的 细胞 生理 过 程 如 凋 亡 、 细 胞 兴奋 
等 的 精确 调控 有 重要 意义 。 从 可 变 剪接 涉及 的 基因 系统 分 类 分 析 , 可 变 剪接 多 发 生 在 免疫 
和 神经 等 复杂 系统 。 正 如 Dscam 基 因 所 示 ,可 变 剪接 产生 的 多 样 性 ,赋予 这 些 系统 精确 处 理 
复杂 信息 相 适 应 的 潜力 。 | 


(E) 可 变 剪 接 的 调节 机 制 (图 7 一 13 和 图 7 一 14) 


可 变 剪 接 能 够 产生 惊人 的 多 样 性 ,但 我 们 对 其 调节 机 制 所 知 不 多 。 剪 接 位 点 的 选择 受 
到 结合 到 非 剪 接 位 点 RNA 元 件 的 剪接 因子 的 多 重 调节 。 参 与 可 变 剪 接 调节 的 RNA 元 件 包 括 
ESE, ISE, ESS, ISS。 剪 接 因子 包括 SR 和 hnRNP 家 族 和 蛋白 等 多 种 因子 。 

真 核 生 物 新 生 的 mRNA 前 体 经 过 5 ” 戴 帽 ,剪接 ,3 ”加 尾 等 加 工 成 为 成 熟 的 nRNA。 在 剪 
接 反应 过 程 中 ,含有 内 含 子 和 外 显 子 的 新 生 的 mRNA 前 体 ,在 剪接 体 作 用 下 切除 内 含 子 , 并 
将 外 显 子 依次 连接 起 来 的 过 程 。 剪 接 反 应 由 剪接 体 执行 ,剪接 体 包括 5 个 小 核糖 核 重 白 复合 
体 Ul1、U2、U4、U5 和 U6 snRNPs, 和 50~100 种 非 snRNP 和 蛋白 。 剪 接 体 通过 RNA-RNA,，RNA- 
EAR, EAH -和 仿 日 质 等 多 重 相 互 作 用 以 精确 切除 每 个 内 含 子 和 以 正确 次 序 连 接 外 显 子 。 

为 有 效 剪 接 , 绝 大 部 分 内 含 子 需要 : 

1. 一 个 保守 的 5” 剪接 位 点 , A/CAG | GURAGU, 

2. 一 个 分 支点 序列 BPS , YNYURAY ,后 面 跟着 一 个 多 聚 喀 啶 Pytract Y10-20。 

3. 一 个 3 ”剪接 位 点 YAGC。 

剪接 体 的 形成 是 一 个 多 步骤 依次 进行 过 程 , 形 成 多 个 中 间 体 : 

LE -复合 体形 成 UlsnRNA 通 过 碱 基 互补 识别 $” 剪接 位 点 , SR 和 蛋白 结合 。U2AF65 
和 U2AF35 识 别 多 聚 喀 啶 Pytract 和 3 ”剪接 位 点 。 

2. A -复合 体形 成 ”U2snRNA 通 过 碱 基 互补 识别 分 文 点 序列 BPS; 需 ATP。 

3. B -复合 体形 成 ”U4/U6 _ US tri-snRNP 随 后 与 mRNA 结 合 。 

4. C -复合 体形 成 ”最 后 , RNA-RNA, RNA- 蛋 白质 相互 作用 构象 改变 形成 有 催化 活 
性 的 剪接 体 。 | 

发 现 新 的 可 变 前 接 异 构 体 ,确定 每 个 异 构 体 的 独特 功能 和 生物 学 意义 ,并 阐明 其 调 市 机 
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图 7-14 剪 切 的 激活 


制 ,是 功能 基因 组 时 代 研 究 的 一 个 重要 领域 。 在 这 一 领域 研究 中 , 除 利 用 经 典 的 分 子 生 物 学 
技术 外 ,还 需 建 立新 的 高 通 量 的 技术 ,如 生物 必 片 技术 , RNAi 技 术 等 ,并 要 与 生物 信息 学 技 
术 紧 密 结合 ,同时 需要 细胞 生物 学 .生物 化 学 ,临床 与 病理 学 .免疫 学 等 多 学 科 的 协作 , 才 有 
可 能 对 这 一 重要 的 生命 现象 有 所 了 解 。 


=. A SAAR: ASD, ASTD >> 


FY AR BY HE fa: FAY AE VIAE I FR AE BY BE ABS PIE , EE BA EY 
开展 ,通过 实验 和 计算 机 处 理 的 方法 已 经 确定 了 越 来 越 多 的 可 变 剪 接 事件 ,人 研究 人 员 也 建 
立 了 很 多 与 可 变 剪 接 相 关 的 数据 库 。 例 如 , ASAP( alternative splicing annotation ): http: // 
www.bioinformatics.ucla.edu/ASAP, AS-ALPS( alternative splicing-induced alteration of protein 
structure ): http: //as-alps.nagahama-i-bio.ac.ip, ASTD( alternative splicing and transcript 
diversity ): http: //www.ebi.ac.uk/astd/“} tHE J ~ASD( altemative splicingdatabase ) 数据 库 , 网 
址 是 : http: /1/www.ebi.ac.uk/asd/, 现 在 ASD 与 ATD 数 据 库 合并 成 数据 库 ASTD。 

ASD 数 据 库 包 括 人 类 和 老鼠 等 多 种 模式 生物 的 可 变 剪 接 事件 和 剪接 异 构 体 ,提供 了 
AltExtron、Altsplice 以 及 AEdb 三 个 子 库 。 


三 、 利 用 基因 芯片 技术 进行 可 变 剪接 研究 D> 
大 量 确定 选择 性 剪接 的 实验 数据 需要 用 生物 信息 学 的 方法 来 分 析 , 其 中 最 有 效 的 方法 
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就 是 用 较 长 探 针 ( 大 于 60nt ) 的 微 阵 列 来 分 析 。Schoemaker 等 人 用 这 种 技术 检测 了 在 人 类 22q 
染色 体 上 注释 的 8183 个 外 显 子 。 这 种 技术 很 适合 去 检测 选择 性 剪接 ,设计 一 条 跨越 外 显 子 - 
外 显 子 连接 处 的 探 针 , 由 于 给 定 基因 选择 性 和 剪接 产物 会 造成 不 同 的 外 显 子 -外 显 子 连接 处 ， 
与 不 同 组 织 mRNA 样 品 淋 交 就 可 以 检测 选择 性 剪接 。 尽 管 大 部 分 给 定 基因 的 外 显 子 -外 显 
子 连 接 处 的 杂交 率 是 不 变 的 ,但 选择 性 剪接 会 导致 一 些 连接 处 的 上 移 或 下 移 。 这 些 尽 片 的 
快速 出 现 使 从 不 同 组 织 的 选择 性 藤 接 基因 编写 出 选择 性 剪接 形式 目录 成 为 可 能 。Affymetrix 
公司 用 20 种 探 针 ( 25nt ) 代 表 同 一 基因 的 不 同 外 显 子 , 尽 管 一 个 基因 的 大 部 分 探 针 的 强度 在 
不 同 组 织 中 会 有 所 变化 ,但 茶 个 组 织 中 的 特定 外 显 子 的 探 针 被 不 规则 地 杂交 可 以 指示 选择 
性 剪接 。 但 要 指出 的 是 只 用 基因 忌 片 的 方法 ,不 结合 生物 信息 学 分 析 , 是 无 法 解决 选择 性 剪 
接 识别 的 问题 。 


、RNA-seq 与 可 变 剪 接 异 构 体 》》， 


(一 ) 可 变 剪 接 事件 


可 变 剪接 事件 共有 5 种 基本 类 型 ,分别 是 可 变 供 体 位 点 ( alternative donor site )、 可 变 受 体 
位 点 ( alternative acceptor site )、 内 含 子 保留 型 ( intron retention ) 外 显 子 缺失 型 (exon skipping ) 
TIU i A 78 ( mutually exclusive exon )。 男 外 也 有 分 为 7 种 形式 的 ,包括 前 面 5 种 类 型 加 
上 可 变 的 起 始 或 末端 外 显 子 ,而 后 两 种 形式 更 有 可 能 是 可 变局 动 子 和 可 变 polyA 位 点 造成 
的 ,可 进行 专门 分 析 。 

绝 大 多 数 真 核 基因 编码 序列 由 外 显 子 和 内 含 子 间 隅 组 成 。 外 显 子 和 内 含 子 之 间 的 边界 
PER BE ka , 按 它们 在 内 含 子 两 端的 位 置 又 可 分 为 $' 剪接 位 点 (位 于 内 含 子 的 5” 端 ,也 称 
作 供 体位 点 ) 和 3' 剪接 位 点 (位 于 内 含 子 的 3 端 ,也 称 作 受 体位 点 )。 基 因 的 前 体 mRNA 被 
转录 后 ,必须 通过 攀 接 反应 切除 内 含 子 ,把 外 显 子 连 在 一 起 ,形成 一 个 成 熟 的 mRNA ,由 细胞 
PAA zs Bll AH Hf i “PE APE. n AE BY RE alternative splicing ) 是 指 从 一 个 mRNA 前 体 中 通过 
不 同 的 剪接 方式 (选择 不 同 的 剪接 位 点 组 合 ) 产 生 不 同 的 mRNA 剪接 异 构 体 ,生成 具有 不 同 
化 学 性 质 和 生物 功能 的 蛋白 亚 型 的 过 程 。 可 变 剪 接 是 高 等 真 核 生物 中 丰富 蛋白 质 多 样 性 的 
重要 机 制 之 一 , 非 正常 的 可 变 脑 接 会 导致 各 种 疾病 。 


(=) RNA 一 seq 与 可 变 剪 接 异 构 体 


剪接 位 点 的 精确 定位 是 确定 真 核 生 物 基因 结构 的 关键 ,目前 有 多 种 方法 可 用 来 在 基因 
组 范围 内 识别 剪接 位 点 。RNA-seq 技 术 是 全 新 的 转录 组 研究 方法 ,基本 上 克服 了 上 述 技术 
的 浆 端 和 缺陷 ,无 需 预 先 设计 探 针 ,可 对 任意 物种 的 整体 转录 活动 进行 检测 ,发现 新 基因 .新 
剪接 位 点 和 可 变 剪 接 事 件 ,对 转录 体 结构 的 分 析 有 了 明显 的 提高 。 

RNA-Seq 还 可 对 可 变 剪 接 (alternative splicing ) 进行 定量 研究 。Sultan 等 利用 深度 测序 
对 人 类 细胞 系 mRNA 剪接 进行 了 全 局 性 研究 ,鉴定 出 94 241 个 剪接 位 点 ,其 中 有 4096 个 是 
全 新 的 。 该 研究 还 表明 ,外 显 子 跳跃 ( exon skipping ) 是 选择 性 剪接 的 一 种 普遍 形式 。 最 新 
RNA-Seq 数据 分 析 显 示 , 至 少 48% 的 水 稻 基 因 经 历 可 变 剪 接 , 比 之 前 报道 的 利用 RNA-Seq 
数据 分 析 结 果 ( 33% ) 和 EST/cDNA 数据 分 析 结 果 ( 20%~30% ) 多 ; 在 拟 南 介 中 ,至 少 42% 携 
带 内 含 子 的 基因 经 历 可 变 剪接 ,多 于 之 前 利用 EST/ecDNA 数据 分 析 的 20% 到 30% ,并 且 这 些 
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可 变 剪 接 转录 本 中 ,大 多 数 是 携带 成 熟 前 终止 密码 子 的 剪接 异 构 体 ,可 能 在 基因 表达 调控 中 
发 挥 重 要 作用 。 

根据 RNA-seq 技术 的 最 新 应 用 (如 图 7-15 : 利用 RNA-seq 数 据 重 构 转 录 本 ), 人 们 越 来 
越 多 地 发 现 即 使 来 自 同一 基因 的 剪接 异 构 体 也 可 能 具有 不 同 的 功能 。 因 此 ,传统 的 根据 结 
构 基 因 组 学 将 基因 定义 为 “基因 组 上 可 定位 的 一 段 区 域 . 可 被 遗传 的 基本 单元 ”面临 着 巨大 
的 挑战 。 而 根据 这 种 基因 定义 构建 的 功能 注释 数据 库 也 将 面临 较 大 的 改进 。 随 着 第 三 代 单 
分 子 测序 技术 的 发 展 ,我 们 将 有 机 会 对 基因 转录 产物 进行 更 深入 细致 的 研究 ,其 带 来 的 不 仅 
是 技术 的 革新 ,更 是 知识 的 革新 。 


RNA-Seq reads 
gms ar 
c cm qo oe ee] m 7 





Align reads to Assemble transcripts 
genome de novo 
In —————————— 
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C 
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图 7-15 用 RNA 一 seq 数 据 重 构 转 录 本 的 策略 
来 源 自 : 1. Trapnell C, Pachter L, Salzberg SL. , TopHat: discovering splice junctions 
With RNA-Seq. Bioinformatics,2009. 25(9): 1105-1111. 2. Haas BJ, Zody MC., 
Advancing RNA—Seq analysis, Nature Biotechnology,2010. 28 : 421—423. 
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基因 表达 调控 是 维持 细胞 动态 平衡 过 程 中 至 关 重 要 的 一 步 。 对 基因 表达 的 控制 可 以 有 
多 个 步骤 。 绝 大 多 数 的 调控 事件 都 发 生 在 转录 水 平 。 为 了 起 始 转录 , 真 核 生 物 RNA 聚 合 
[需要 己 被 称 为 转录 因 于 的 一 系列 蛋 日 质 密 切合 作 。 转 录 因 子 一 般 分 为 两 组 : 中 基础 转录 
因子 ,它们 无 处 不 在 ,并 且 招 募 RNA 聚 合 酶 开 多 重 和 蛋白 复合 物 到 最 小 启动 子 ; @ 基 因 特 异 的 
枝 录 因子 ,激活 或 抑制 基础 转录 。 这 些 蛋 白质 与 DNA 上 一 系列 被 称 为 调控 序列 的 调控 模块 
相 结 合 。 因 此 ,基因 表达 调控 的 分 子 基础 就 是 转录 因子 与 顺 式 作 用 序列 (结合 位 点 ) 的 结合 。 
越 来 越 多 的 研究 表明 人 类 疾病 与 转录 因子 上 的 遗传 缺陷 有 关 。 在 大 多 数 情况 下 ,转录 因子 
处 的 基因 突变 导致 多 效 性 。 临 床 观察 可 以 在 分 子 水 平 上 解释 ,这 些 反 式 作用 因子 通常 通过 
杞 一 个 或 更 多 的 深层 激活 子 结合 ,从 而 控制 许多 基因 的 表达 。 此 外 ,许多 事件 导致 白血病 和 
实体 瘤 的 肿瘤 起 源 过 程 , 暗 示 着 转录 因子 的 过 表达 或 基因 突变 。 这 一 节 描 述 了 归 因 于 转录 
因子 编码 基因 及 其 同 源 结合 位 点 处 突变 造成 的 人 类 疾病 。 


一 、 顺 式 调控 元 件 > > 


转录 起 始 复 合 物 与 RNA 聚 合 酶 和 其 他 相关 的 基础 因子 (一 般 转录 因子 ) 共 同 装配 , 进 
而 起 始 转录 。 这 种 多 竺 日 复合 物 与 一 段 被 称 为 核心 启动 子 的 短 DNA 序 列 结合 ,这 段 短 DNA 
序列 往往 包含 一 个 位 于 转录 起 始 位 点 上 游 20~30 个 碱 基 ,被 称 为 TATA 盒 的 保守 模 序 ( motif )。 
一 般 转 录 因 于 的 特点 是 它们 能 够 控制 最 小 启动 子 上 RNA 聚 合 酶 开 的 活性 。 这 一 步 是 它 能 够 
有 效 起 始 转录 的 关键 ,但 是 它 的 调控 还 需要 与 不 同调 控 元 件 结合 的 其 他 因子 的 介 导 。 

下 面 将 简要 介绍 这 些 调控 元 件 : l 

顺 式 作用 元 件 ( cis-acting element ) 存 在 于 基因 劳 侧 序 列 中 能 影响 基因 表达 的 序列 。 顺 
式 作用 元 件 包括 局 动 子 、 增 强 子 、 调 控 序 列 和 可 诱导 元 件 等 ,它们 的 作用 是 参与 基因 表达 的 
调控 。 顺 式 作用 元 件 本 身 不 编码 任何 蛋白 质 ,仅仅 提供 一 个 作用 位 点 ,要 与 反 式 作 用 因子 相 
互 作 用 而 起 作用 。 

顺 式 作 用 元 件 是 指 与 结构 基因 串联 的 特定 DNA 序 列 ,是 转录 因子 的 结合 位 点 ,它们 通过 
亏 转 录 因 子 结合 而 调控 基因 转录 的 精确 起 始 和 转录 效率 。 

顺 式 作用 元 件 是 转录 调节 因子 的 结合 位 点 ,包括 启动 子 、 增 强 子 和 沉默 子 。 真 核 基因 
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启动 子 是 原核 启动 序列 的 同 义 语 。 真 核 启动 子 是 指 RNA 聚 合 酶 及 转录 起 始点 周围 的 一 组 
转录 控制 组 件 ,每 个 启动 子 包括 至 少 一 个 转录 起 始点 以 及 一 个 以 上 的 功能 组 件 , 转 录 调 
节 因 子 即 通过 这 些 功 能 组 件 对 转录 起 始 发 挥 作用 。 在 这 些 调 节 组 件 中 最 具 典 型 意义 的 就 
是 TATA 盒 子 , 它 的 共有 序列 是 TATAAA。TATA 盒 子 通常 位 于 转录 起 始点 上 游 -25 至 -30 
区 域 ,控制 转录 的 准确 性 和 频率 。TATA 盒 子 是 基本 转录 因子 TFID 结 合 位 点 ; TFID 则 
是 RNA 聚 合 酶 结合 DNA 必 不 可 少 的 。 除 TATA 盒 子 外 , GC 盒 子 (GGGCGG ) 和 CAAT 盒 子 
( GCCAAT ) 也 是 很 多 基因 中 常见 的 ,它们 位 于 起 始点 上 游 -30 至 -110bp 区 域 。 所 谓 增强 子 
就 是 远离 转录 起 始点 决定 组 织 特异 性 表达 增强 启动 子 转录 活性 的 特异 DNA 序 列 ,其 发 
挥 作用 的 方式 与 方向 、 距 离 无 关 。 增 强 子 与 启动 子 非常 相似 : 都 是 由 硅 干 组 件 组 成 ,有 些 
组 件 既 可 在 增强 子 、 又 可 在 启动 子 出 现 。 从 功能 方面 讲 , 没 有 增强 子 存在 ,启动 子 通常 不 
能 表现 活性 ; 没有 局 动 子 ,增强 子 也 无 法 发 挥 作 用 。 增 强 子 和 局 动 子 有 时 分 隔 很 远 , 有 时 

某 些 基因 有 负 性 调节 元 件 抑制 子 (沉默 子 ) 存 在 。 有 些 DNA 序 列 既 可 作为 正 性 、 又 可 作 
为 负 性 调节 元 件 发 挥 顺 式 调 节 作 用 ,这 取决 于 不 同类 型 细胞 中 DNA 结 合 因 子 的 性 质 。 

核心 启动 子 上 游 的 顺 式 作用 序列 ,以 一 个 依赖 方 回 的 方式 ,发 现 了 所 谓 的 近 启 动 子 元 
件 ; 这 些 序列 被 特定 的 转录 因子 绑 定 ,它们 的 出 现 可 以 增加 或 减少 基因 的 转录 活性 。 除 了 局 
动 子 区 域 ,其 他 顺 式 作 用 元 件 可 以 位 于 起 始 位 点 $ ”或 3” 端 几 百 或 上 千 碱 基 对 内 。 这 些 元 件 
也 是 序列 特异 的 转录 因子 的 结合 位 点 。 与 启动 子 相 比 ,这 些 元 件 的 位 置 和 方向 是 关于 基因 
的 变量 。 如 果 特 异 因子 与 这 些 元 件 的 结合 可 以 激活 转录 ,那么 这 些 元 件 被 称 为 增强 子 ; 如 果 
抑制 转录 , 则 称 为 沉默 子 。 由 于 与 这 些 元 件 结合 的 转录 因子 可 能 在 不 同 环境 不同 组 织 中 具 
有 不 同 的 功能 ,导致 特定 的 顺 式 作用 元 件 的 重要 性 在 不 同 的 细胞 类 型 和 对 不 同 生理 刺激 的 
反应 上 有 很 大 的 区 别 。 

多 因子 重合 或 全 加 的 结合 位 点 可 以 导致 不 同 的 阳性 和 阴性 因子 对 位 点 的 苑 争 。 在 某 些 
情况 下 ,协同 效应 依赖 于 顺 式 作用 元 件 附 近 严 格 的 间距 。 各 种 类 型 的 沉默 子 元件 可 以 阻 断 
顺 式 连接 增强 子 的 活性 。 


二 、 反 式 作 用 因子 >> 


反 式 作 用 因子 ( trans-acting factor ) 是 指 能 直接 或 间接 地 识别 或 结合 在 各 类 顺 式 作用 元 
件 核心 序列 上 参与 调控 靶 基 因 转 录 效 率 的 借 日 质 。 

大 多 数 真 核 转录 调节 因子 由 某 一 基因 表达 后 ,可 通过 为 一 基因 的 特异 的 顺 式 作用 元 件 
相互 作用 ,从 而 激活 为 一 基因 的 转录 。 这 种 调 方 焦 白 称 反 式 作用 因子 。 

参与 基因 表达 调控 的 因子 ,它们 与 特异 的 靶 基 因 的 顺 式 元 件 结合 起 作用 。 编 码 反 式 作 
用 因子 的 基因 与 被 反 式 作用 因子 调控 的 靶 序 列 (基因 ) 不 在 同一 染色 体 上 。 反 式 作用 因子 有 
两 个 重要 的 功能 结构 域 : DNA 结 合 结构 域 和 转录 活化 结构 域 ,它们 是 其 发 挥 转 录 调控 功能 的 
必需 结构 ,此 外 还 包含 有 连接 区 。 反 式 作 用 因子 可 被 诱导 合成 ,其 活性 也 受 多 种 因素 的 调节 。 

同一 类 序列 特异 性 的 反 式 作用 因子 由 多 基因 家 族 所 编码 ,它们 具有 特定 的 蛋 日 质 结构 
Clin SES PER ASTU 、 碱 性 亮 妥 酸 拉链 、 螺 旋 - 环 -螺旋 基 元 等 ) 和 重 日 质 结构 上 的 同 源 性 , 因 
而 构成 反 式 作 用 因子 家 族 , 如 类 固 醇 激素 受 体 家 族 、AP1 家 族 等 。 
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主要 包括 : 

1. DNA 结 合 域 (螺旋 -转角 -螺旋 ; CO PERSA; Ose AMAL; (4 螺旋- 突 环 - 螺 旋 。 

2. 转录 激活 域 与 其 他 转录 因子 相互 作用 的 结构 成 分 。 

随 看 表 观 遗传 学 的 发 展 ,人 研究 发 现 除了 和 借 日 , DNA、RNA 也 有 调控 功能 ,所 以 现在 也 称 
反 式 调控 元 件 ,主要 有 miRNA、 转 录 因 子 等 。 


三 、 顺 式 作 用 元 件 与 疾病 (心脏 病 、 肾病 .Alzheimer、cancer ) > > 


(一 ) B Leyden 血 友 病 


X- 连 锁 因子 以 基因 中 的 突变 可 以 导致 己 型 血 友 病 。 多 数 情 况 下 是 由 于 编码 集 日 质 序 
列 中 的 突变 。 然 而 ,在 少数 情况 下 ,疾病 归 因 于 因子 多 基因 调控 区 域 中 的 突变 。B Leyden 血 
友 病 患者 伴 有 严重 的 出 血 症状 并 有 昌 <1% 在 童年 时 血浆 凝血 因子 信 量 正常 。 青 春 期 后 ,临床 
症状 逐步 改善 并 且 血 浆 凝 血 因子 以 浓度 上 升 到 正和 常人 的 60%。 所 有 被 研究 的 患者 在 因子 信 
基因 转录 起 始 位 点 附近 20bp 范 围 内 存在 突变 。 这 些 突变 扰乱 了 转录 因子 与 因子 区 基因 的 
结合 ,这 对 因子 多 基因 表达 来 说 是 至 关 重 要 的 。 例 如 ,在 -20 处 的 突变 干扰 了 肝 细 胞 核 因 子 
4( HFN4 ) 的 结合 。 此 外 ,因子 及 的 启动 子 -22 到 -38 区 域 包含 一 个 雄性 激素 受 体 结合 位 点 ， 
这 一 位 点 与 HFN4 结 合 位 点 有 交合 。 在 青春 期 ,雄性 激素 受 体 与 这 一 位 点 结合 可 以 补 傍 缺 乏 
HFN4 或 其 他 转录 因子 ,激活 因子 区 基因 。 某 些 -22 到 -38 区 域 的 突变 ,被 称 为 Brandbourg 变 异 ， 
可 以 阻止 这 种 补偿 ,导致 在 青春 期 没有 任何 改善 。 


(Z) 血红 蛋白 病 


遗传 性 持续 性 胎儿 血红 重 日 增多 症 ( hereditary persistence of fetal hemoglobin, HPFH ), g- 
球 重 日 在 成 年 后 仍然 持续 表达 ,可 以 作为 男 一 个 由 顺 式 作用 元 件 突变 导致 人 类 疾病 的 例子 。 
在 Ag- 球 重 日 基因 启动 子 区域 已 经 识别 出 了 点 突变 ,在 那里 存在 GATA-1 转 录 因 子 结合 位 
点 。Ag- 球 重 日 基因 不 能 被 抑制 。CATA-1 结 合 位 点 也 在 LCR 中 人 存在。 这 可 以 部 分 解释 在 西 
班 牙 裔 地 中 海 贫血 中 到 底 发 生 了 什么 ,大 部 分 LCR 叶 基因 簇 在 染色 质 构象 中 删除 ,导致 DNA 
酶 工 不 可 接近 ,造成 球 蛋 白 基 因 表 达 缺 乏 。TATA 盒 ( -28 到 -31 ) 和 CACC 盒 ( -92 到 -105 ) 的 
突变 已 经 在 b- 地 中 海 贫血 中 发 现 , 其 特点 是 b- 球 重 日 基因 表达 减少 。 


(=) ITEN EE TET 


Unverricht-Lundborg typetf7 VE WL: 5E 355i Jj Jis — OL BJ A 34 色 体 隐 性 遗传 疾病 ,发 
病 6 至 13 年 还 有 不 同 程度 的 精神 恶化 及 小 脑 共 济 失调 。 


(四 ) 启动 子 多 态 性 与 人 类 疾病 


影响 某 些 基因 表达 水 平 的 启动 子 多 态 性 可 能 与 各 种 不 同 病 症 有 关 。 不 同 的 MHC 本 类 等 
位 基因 的 差异 表达 可 能 与 启动 子 的 多 态 性 有 关 。 例 如 ,一 些 HLA-DQ 基 因 的 等 位 基因 具有 
不 同 强度 的 启动 子 , 以 响应 细胞 因子 ,如 TNF- a ,揭示 出 与 某 些 自身 免疫 疾病 易 感 性 等 位 基 
因 相 关 的 致 病 机 制 。 人 类 TNF- a 启动 子 的 一 个 黎 有 等 为 被 称 为 TNF2 ,位 于 一 个 被 明确 定义 
的 与 自身 免疫 和 高 TNF- a (肿瘤 坏死 因子 ) 产 生 相 关 的 HLA-A1l 单 体 附 近 。TNF- a 的 高 血 
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浆 水 平 与 症 疾 和 利 什 复原 虫 感染 的 严重 性 相关 。 此 外 ,为 TNF2 等 位 基因 纯 合 子 的 患者 表现 
出 脑 型 症 疾 死亡 率 明显 更 高 。 





四 、 反 式 作用 因子 与 疾病 >> 


转录 因子 的 重要 作用 以 及 单一 因子 可 以 影响 许多 基因 表达 这 一 事实 表明 由 遗传 突变 导 
致 的 转录 因子 的 失 活 与 生存 是 对 立 的 。 这 在 许多 情况 下 可 能 是 正确 的 ,但 一 些 转录 因子 的 
突变 与 生存 兼容 ,并 且 叶 致 了 特定 的 疾病 。 在 过 去 几 年 , 越 来 越 多 地 发 生 在 编码 基因 转录 因 
子 处 的 基因 突变 表现 出 与 一 系列 先天 性 综合 征 相 关 。 其 后 有 果 是 畸形 、 生 理 通 路 的 中 汤 或 者 
肿瘤 发 生 。 观 察 到 的 异常 经 党 局 限于 表达 受 影 响 基因 组 织 的 子 集 。 在 大 多 数 情况 下 , 表 型 
是 多 效 的 ,反映 了 转录 因子 控制 许多 基因 表达 这 一 事实 。 突变 分 析 ,与 同 源 小 鼠 模型 比较 ， 
揭示 出 蛋 白 质 共同 作用 的 分 子 机 制 ,深入 观察 了 由 这 些 基 因 控 制 的 主要 生理 过 程 。 

除了 先天 综合 征 ,大 量 特定 转录 因子 的 体 细胞 突变 促成 了 肿瘤 发 生 的 多 步骤 过 程 并 量 
导致 越 来 越 多 的 瘤 症 ,在 这 些 瘤 钙 中 ,这 些 步骤 可 能 会 起 到 一 定 的 作用 。 在 茶 些 肿瘤 中 ,如 
人 类 白血病 ,观察 到 的 染色 体 易 位 ,就 是 多 种 转录 因子 基因 的 调控 和 编码 区 域 重 排 的 结果 
(图 7-16 ). 
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图 7-16 转录 调控 缺陷 与 人 类 疾病 
来 源 自 : Jean Villard, Transcription regulation and human diseases, SWISS 
MED WKLY,2004.134 : 571—579. 


(一 ) 一 般 转录 因子 突变 与 人 类 疾病 
在 大 量 与 由 RNA 聚 合 酶 开 介 导 的 转录 起 始 阶段 相关 的 一 般 转 录 因 于 中 , TFIIH 具 有 特殊 


的 作用 。 这 种 多 亚 基 蛋 白 复合 物 在 一 些 受 着 色 性 干 皮 病 困扰 的 患者 中 是 缺乏 的 。 看 色 性 干 
皮 病 ( xeroderma pigmentosum, XP ) 的 特点 是 对 阳光 引起 的 皮肤 伤害 具有 极度 的 敏感 性 ,不 





general 
transcription 


factors 





— 


CHAPTER 7 BIOINFORMATICS ANALYSIS ON TRANSCRIPTION REGULATION 


足 或 过 度 色 素 沉 着 ,并 易 患 皮肤 癌 。 此 病 是 由 于 缺乏 一 种 与 DNA 修 复 相 关 的 机 制 。TEFIIH 的 
两 个 亚 基 (XP-B 和 XP-D ) 对 DNA 核 苷 酸 切 除 修复 来 说 是 必 不 可 少 的 。 这 两 种 蛋 日 质 都 具有 
解 旋 酶 活性 。 这 两 个 亚 基 在 某 些 XP 患 者 中 发 生 突变 。 此 外 , XP 患者 的 一 个 亚 基 显示 出 眼 部 
或 神经 系统 异常 ,如 精神 迟缓 以 及 身体 和 性 征 发 育 述 缓 ,但 并 不 容易 发 生 瘤 症 。 这 些 临 床 症 
状 像 DNA 修 复 缺陷 一 样 很 难 被 合理 的 解释 。 患 者 携带 XP-B 或 XP-D 基 因 的 突变 具有 XP 和 CS 
或 TTD 的 临床 特点 。TFIIH 在 DNA 修 复 和 转录 中 发 挥 作用 这 一 发 现 , 引 发 了 一 种 假设 , 即 由 
编码 TFIIH 亚 基 的 基因 突变 携带 患者 展示 出 的 临床 症状 的 非 正 常 变异 ,并 不 是 DNA 修 复 缺 陷 
的 结果 , 而 是 来 目 于 转录 的 缺陷 。 


(=) 染色 质 重 塑 因子 多 态 性 与 人 类 疾病 中 的 共 激 活 子 


染色 质 重 逆 是 人 类 表 观 遗传 的 重要 方面 ,因此 任何 过 程 发 生 异 常 都 会 导致 人 类 基因 组 
的 不 正常 表达 ,从 而 引起 许多 疾病 。 这 其 中 ,染色 质 重 逆 异常 引发 的 人 类 疾病 基本 是 由 于 重 
塑 复合 物 中 的 关键 蛋白 发 生 突变 ,导致 染色 质 重 塑 失败 , 即 核 小 体 不 能 正确 定位 ,并 使 修复 
DNA 损 伤 的 复合 物 ,基础 转录 装置 等 不 能 接近 DNA ,从 而 影响 基因 的 正常 表达 而 引起 的 。 如 
果 突 变 导 致 抑 癌 基因 或 调节 细胞 周期 的 蛋白 出 现 异 党 将 导致 癌症 的 发 生 。 乙 酰 化 酶 的 突变 
导致 正常 基因 不 能 表达 ,去 乙酰 化 酶 的 突变 或 一 些 和 去 乙酰 化 酶 相关 的 蛋白 的 突变 使 去 乙 
酰 化 酶 错误 募集 将 引发 肿瘤 等 疾病 。 

目前 的 研究 中 发 现 ,白血病 的 发 病 机 制 中 ,染色 质 重 塑 异常 是 非常 重要 的 一 环 。 和 急性 
早 幼 粒 细 胞 白血病 (acute promyelocytic leukemia, APL ) 会 导致 多 种 染色 体 异 和 常 ,结果 形成 
PML2RAR a , PLZF2RAR a 融合 蛋白。 然而 在 生理 浓度 的 RA 存在 时 , PML2RAR a 并 非 激 
活 转 录 而 是 阻 抑 转录 ,这 是 由 于 PML2RAR o 和 N2CoR/ Sin3/ HDACI 辅助 抑制 因子 复合 物 
间 相 互 作 用 增强 所 致 。 当 配 基 水 平 足以 释放 与 野生 型 RAR a 结合 的 辅助 阻 抑 复合 物 时 ， 
PML2RAR a 仍然 和 辅助 阻 抑 复 合 物 牢固 结合 ,使 RA 反应 基因 的 启动 子 维持 去 乙酰 化 构象 、 
阻 抑 转录 ,产生 与 RAR a 显 性 负 抑 制剂 作用 后 相同 的 表 型 。 

反 式 作用 蛋白质 可 能 通过 影响 染色 质 结构 影响 基因 表达 。 在 酵母 中 ,有 一 组 被 称 为 
SWI/SNF 的 基因 ,显示 出 很 强 的 编码 可 以 直接 改变 染色 质 结构 的 蛋白 质 的 能 力 。 这 些 重 日 
作用 的 确切 模式 , 即 形成 一 个 大 的 多 和 蛋白 复合 物 ,目前 还 不 能 清楚 的 了 解 。 这 些 重 日 质 具 有 
一 个 假想 的 DNA 结 合 结构 域 ( 锌 指 蛋 白 结构 域 ) 如 ATP 酶 / 解 旋 酶 类 似 的 结构 域 。 在 人 类 中 ， 
SWISNF 的 几 个 同 源 基因 已 经 被 描述 出 来 。 其 中 之 一 是 ATRX , 它 在 X- 连 锁 人 类 综合 征 中 发 
生 突变 ,可 以 导致 神经 发 育 述 缓 、A 型 地 中 海 贫血 症 、 生 殖 旭 异常 和 面部 畸形 。CREB 结 合集 
日 (CREB-binding protein, CBP ) 共 激 活 子 也 与 染色 质 重 塑 有 关 , 并 且 已 经 被 发 现在 一 种 军 
见 的 人 类 综合 征 中 存在 突变 。 可 以 区 分 染色 质 激 活 与 失 活 的 特征 之 一 是 组 和 蛋白 乙酰 化 状态 。 
组 重 白 是 真 核 生 物 核 小 体 的 主要 结构 重 晶 ,在 将 DNA 组 装 成 染色 质 过 程 中 发 挥 者 关键 作用 。 
在 转录 激活 区 域 ,染色 质 压 缩 率 低 ,组 蛋白 高 度 乙 酰 化 。 鲁 宾 斯 坦 - 塔 比 综合 征 就 是 一 种 症 
状 是 面部 畸形 拇指 宽大 脚趾 宽大 和 精神 发 育 玉 组 的 疾病 。 携 市 组 重 晶 乙酰 化 活性 的 核 重 
白 CBP 编 码 基 因 中 的 突变 可 以 导致 该 病 。 


(三 ) 转录 激活 子 突 变 与 发 育 | 
一 个 典型 的 人 类 疾病 中 转录 因子 突变 的 例子 是 Pit-1。 这 个 转录 因子 的 特征 是 有 一 个 
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POU 型 同 源 结 构 域 。 它 在 腺 垂体 中 表达 ,并 且 是 分 记 生 长 激素 ( growth hormone, GH )、 泌 乳 激 
素 ( prolactin, PRL ) 以 及 促 甲状 腺 激素 ( thyroid stimulating hormone, TSH ) 的 细 胞 分 化 和 生存 
所 必需 的 。Pit-1 突 变 导 致 联合 垂体 激素 缺乏 (combined pituitary hormone deficiency, CPHD ) 
的 智力 迟钝 。 已 经 有 部 分 人 被 查 出 携 珊 CPHD 及 Pit-1 突 变 。 


(四 ) 转录 激活 子 突变 与 癌症 


p53 是 一 种 肿瘤 抑制 基因 。 在 所 有 恶性 肿瘤 中 ,50% 以 上 会 出 现 该 基因 的 突变 。 由 这 
种 基因 编码 的 蛋白 质 ( protein ) 是 一 种 转录 ( transcription ) 因子 ,其 控制 着 细胞 周期 的 启动 。 
许多 有 关 细 胞 健康 的 信号 癌 p53 和 蛋白 发 送 。 关 于 是 否 开始 细胞 分 裂 就 由 这 个 细胞 决定 。 如 
果 这 个 细胞 受 损 ,又 不 能 得 到 修复 , 则 p53 重 日 将 参与 启动 过 程 ,使 这 个 细胞 在 细胞 凋 亡 
( apoptosis ) 中 死去 。 有 p53 缺陷 的 细胞 没有 这 种 控制 ,甚至 在 不 利 条 件 下 继续 分 裂 。 像 所 有 
其 他 肿瘤 抑制 因子 一 样 , p53 基因 在 正常 情况 下 对 细胞 分 裂 起 着 减 慢 或 监视 的 作用 。 细 胞 中 
抑制 瘤 变 的 基因 “p53” 会 判断 DNA 变 异 的 程度 ,如 果 变 异 较 小 ,这 种 基因 就 促使 细胞 自我 修 
复 , 厂 DNA 变 异 较 大 ,“p53” 就 诱导 细胞 凋 亡 。 | 

p53 基因 突变 后 ,由 于 其 空间 构象 发 生 改 变 , 失 去 了 对 细胞 生长 , 凋 亡 和 DNA 修复 的 调 
控 作 用 ,p53 基因 由 抑 癌 基因 转变 为 癌 基 因 。 

p53 基因 与 人 类 50% 的 肿瘤 有 关 , 目 前 发 现 的 有 肝癌 、 乳 腺 癌 、 膀 胱 癌 、 胃 癌 、 结 肠 癌 、 前 列 
BRIA 软组织 肉瘤 .卵巢 癌 、 脑 瘤 、 淋 巴 细 胞 肿瘤 食管 癌 .肺癌 、 成 骨肉 瘤 等 ,人 类 肿瘤 中 pz53 突 
变 主 要 在 高 度 保守 区 内 ,以 175.248 .249.273 .282 位 点 突变 最 高 ,不 同 种 类 肿瘤 不 同 , 如 结肠 
癌 和 乳腺 癌 有 相似 的 流行 病 学 (包括 地 区 分 布 和 危险 因素 ), 但 p53 突变 谱 并 不 一 致 。 结 肠 癌 
G : CA : T 转 换 占 79% ,而 且 50% 以 上 转换 突变 发 生 在 第 3~5 结 构 域 的 CpG 位 点 在 乳腺 癌 中 ， 
只 发 现 13% 的 转换 在 CpG 位 点 。 此 外 , G-T 颠 换 在 乳腺 癌 占 14, 但 在 结肠 癌 十 分 罕见 。 淋 巴 
瘤 和 日 血 病 的 p53 突 变 方式 与 结肠 癌 相 似 , 即 大 部 分 突变 为 CPG 位 点 的 转换 ，G 一 T 颠 换 较 低 ， 
A : TOG : CEA : T 位 点 突变 较 高 。 伯 基 特 淋巴 瘤 与 其 他 B 细 胞 淋巴 瘤 和 T 淋 巴 细胞 恶性 
病变 的 p53 突 变 谱 相 似 , 但 伯 基 特 淋巴 瘤 的 转换 突变 较 高 。 在 非 小 细胞 肺癌 中 G : COT : A 
最 普遍 ,食管 癌 颠 换 率 很 高 ,与 肺癌 不 同 的 是 , G : C 和 A : T 位 点 有 相似 的 突变 率 。 我 国 启 
AR HX 50% 7324978805 F AGC., GTI, ,而 南非 肝癌 80% 为 G 一 了 T 颠 换 。 骨 肉瘤 中 p53 突 变 
率 为 75%, 主 要 集中 在 5~9 外 显 子 。 
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一 、 结 合 序列 和 表达 详 数 据 识 别 组 合式 转录 调控 模式 和 调控 网 络 > > 


细胞 生命 活动 复杂 性 的 基础 是 基因 的 表达 。 由 信号 分 子 、 转 录 因 子 以 及 转录 因子 的 靶 
基因 所 构成 的 调控 网 络 是 组 织 细胞 复杂 性 的 系统 形式 。mRNA 的 表达 水 平 由 非 编 权 区 上 的 
顺 式 转录 元 件 的 逻辑 输入 信号 决定 。 这 些 顺 式 转录 原件 形成 的 逻辑 信号 最 终 影响 到 细胞 生 
物 学 过 程 ,包括 生理 适应 性 ,细胞 多 样 性 的 产生 以 及 形态 发 育 等 。 由 全 基因 组 全 局 方法 与 
技术 ,包括 计算 方法 、 分 析 转 录 调 控 网 络 的 结构 与 动态 特性 是 该 分 析 解 决 方案 的 主要 内 容 ， 
全 基因 组 分 析 已 经 证 明了 重要 的 转录 网 络 组 织 是 由 mRNA 水 平 上 具有 共 表 达 模 式 的 基因 构 
成 ,也 就 是 说 许多 生物 学 过 程 是 由 基因 产物 的 同时 性 参与 完成 的 。 比 较 基 因 组 学 分 析 也 得 
到 多 物种 间 这 些 基因 调控 结构 序列 的 保守 性 。 基 于 模式 识别 的 算法 识别 调控 序列 已 经 应 用 
于 单 细 胞 酵母 中 。 可 以 针对 不 同 数据 源 和 需求 分 析 调 控 网 络 : 

本 例 采 用 统计 学 模型 系统 解决 基因 组 范围 的 基因 表达 谱 下 的 复杂 调控 模式 ,包括 识别 
决定 基因 表达 调控 的 DNA 序 列 上 的 调控 元 件 及 其 空间 方位 (定位 与 方 回 位 置 ) 识别 组 合式 
调控 模式 在 不 同 条 件 下 的 功能 。 利 用 贝 叶 斯 统计 模型 基于 序列 特征 ,更 可 以 推测 出 基因 表 
达 谱 特征 ,并 将 其 与 真是 数据 做 比较 得 到 该 方法 的 准确 度 和 解释 力 。 

分 析 步 又 : 

1. 根据 表达 谱 数 据 得 到 差异 的 基因 集合 ( Gene Set )。 

2. 采用 Force-directed placement 算 法 计算 高 度 相关 性 的 共 表 达 基 因 ，。 

3. 衡量 非 编 码 序列 特征 影响 基因 表达 的 程度 。 

4. 在 表达 谱 数 据 集中 的 不 同 条 件 下 ,全 局 地 计算 组 合式 转录 调控 元 件 的 规律 模式 。 

5 : 

6 





. 计算 获得 预测 的 转录 调控 元 件 序列 motif; EM 75 TT 18] « 
). 获取 条 件 特 异 、 空 间 特异 ,或 时 间 序 列 上 时 间 特 异 点 上 的 转录 调控 模式 和 机 制 。 


二 、 基 于 局 动 子 结构 元 件 的 组 合 模式 识别 调控 网 络 》》 


转录 调控 的 组 合式 调控 具有 重要 的 生物 学 意义 ,例如 细胞 可 以 使 用 多 个 不 同 的 转录 因 
子 的 组 合 参与 多 种 不 同 条 件 下 生物 反应 。 本 例 基于 生物 基因 的 局 动 子 序列 中 的 motif 组 合 ， 
并 结合 必 片 表达 谱 数 据 预测 新 的 motif 和 motif 之 间 的 关联 ,进而 构建 特定 条 件 下 的 转录 调控 网 
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络 。 为 外 可 以 预测 发 现 是 否 在 调控 网 络 中 具有 不 同 生 物 功 能 模块 的 相互 交 联 ( Cross-Talk )。 
分 析 步 又 : 
. 构建 已 知 和 预测 的 启动 子 基 序 -motif; 预测 motif 使 用 AlignACE 算 法 。 
. 发 现 所 有 motif 的 组 合 情 况 以 及 对 应 的 基因 。 
. 对 具有 motif 组 合 的 基因 集 ( Gene set ) 计算 表达 一 致 性 得 分 (expression coherence score )。 
4. 识别 具有 统计 显 关 性 的 协同 性 motif 组 合 。 
3: 根据 motif 协 同性 构建 motif map 以 及 调控 网 络 。 
6. 同时 比较 单独 motif 和 组 合 motif 在 表达 详 上 的 效果 。 
结果 形式 : 
I. 针对 不 同 motif 组 合 , 计 算 motif 组 合 之 间 的 相对 距离 与 出 现 频 度 分 布 图 (图 7-17 ); 以 
及 motif 协 同性 的 方 回 偏好 性 ( orientation bias ), 通 过 真实 情形 与 随机 模拟 做 对 比 计 算 协 同 


uU N = 





20 5 
4 
15 
S 8 3 
S 5 
E 10 E 
3 S 2 
© © 
3 1 
0 0 
-200 -100 0 100 200 -500 0 500 


s ; « M1 location-M2 location 
PAC location—mRRPE location 


40 


35 


Occurrence 
UA SO UA e 


© 


-6 -5 -4 -3 -2 -1 0 
log(Orientation Bias) 
B 


图 7-17 motif 组 合 之 间 的 相对 距离 与 出 现 频 度 分 布 图 
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motif 的 方 回 俩 好 性 显著 性 , 即 Orientation bias score; 显著 性 通过 ”Wilcoxon rank sum 统计 学 
检验 。 为 外 ,可 视 化 协同 性 motif 的 共 表 达 情 况 。 

2. 构建 全 局 motif 协 同性 图 谱 ( global motif synergy map ) (图 7-18 )。 已 知 和 预测 的 motif 
之 间 的 边 表示 组 合 协同 性 存在 , 边 的 P 值 计算 说 明 协 同性 的 可 靠 性 。P 值 <<P0 国 值 的 mitif 组 
合 才 会 最 终 可 视 化 显示 出 来 作为 结果 使 用 。 
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图 7-18 全 局 motif 协 同性 图 谱 


3. 探索 计算 moti 人 与 表达 谱 特征 的 关联 (图 7-19 )。 除 了 计算 motif 之 间 的 关联 组 合 ,我 们 
也 要 计算 每 个 组 合 中 的 motif 对 表达 谱 的 影响 。 我 们 进而 可 以 识别 是 哪些 motif 组 合 对 ( motif 
pairs ) 或 共 孚 哪些 motifs 的 基因 对 表达 谱 产 生效 应 。 协 同 的 motif 和 在 每 个 条 件 .样本 下 表达 
程度 对 应 起 来 。 

基于 TF 纺 合 数据 和 表达 谱 数 据 识 别 遗 传 调控 模块 : 

该 例 目的 是 识别 基因 共同 被 转录 调控 的 模块 ( gene module )。 基 因 模 块 被 定义 为 具有 共 
表达 模式 的 以 及 共同 被 一 组 转录 因子 (TF set ) 转 录 的 基因 集 ( gene set )。 整 合 转录 因子 TF 
和 调控 的 基因 模块 将 重 构 出 转录 调控 网 络 ( regulatory network )。 该 例 并 未 假设 在 特定 的 基 
模块 中 的 基因 表达 模式 直接 受到 调控 模块 转录 因子 的 表达 模式 影响 。 因为 在 很 多 情况 下 ， 
转录 因子 受到 转录 后 修饰 ,而 且 该 例 并 未 能 从 表达 谱 中 观测 到 基因 产物 即 和 蛋白 质 的 水 平 。 
因此 ,该 例 基于 转录 因子 与 DNA 结 合 的 组 学 数据 ,包括 CHIP-chip, CHIP-seq 等 ,以 及 基因 表 
达 谱 数据 ( expression data ), 使 得 两 个 类 型 的 组 学 数据 相互 补 。 该 例 首先 基于 TF-DNA 结 合 
强度 的 P 值 ,选择 被 一 组 TF 结合 并 且 具 有 共 表 达 模 式 的 基因 集 。 通 过 适当 的 放 低 结合 强度 的 
P 值 尽 可 能 地 将 潜在 共 调 控 的 靶 基 因 考 虑 进来 ,建立 一 组 基因 共 转 录 调 控 模块 。 
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图 7-19 motif 与 表达 谱 特 征 的 关联 结果 
1. 共 调 控 基 因 模 块 和 重 构 的 调控 网 络 图 (图 7-20 )。 


® Ribosome biogenesis 


Sporulation/pheromone resp. Cell-cycie 
® Amino acid met /biosynth. — Protein synthesis (9 Chromosome/histone @ Unknown 


@ Giycolysis/metabolism @ Fermentation — 6 Lipid/fatty acid biosynth 
图 7-20” 共 调控 基因 模块 和 重 构 的 调控 网 络 图 
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2. Motif 富 集 度 分 析 ( 图 7-21 ) 
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图 7-21 Motif 富 集 分 析 
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生物 分 子 网 络 与 通路 


BIOLOGY MOLECULAR NETWORK AND 
PATHWAY 


在 过 去 的 一 个 世纪 中 ,分子 生 物 学 的 很 多 领域 只 是 研究 少数 几 个 基因 、 蛋 白 或 分 子 
的 功能 ,但 是 ,现在 人 们 已 经 越 来 越 意识 到 很 多 生物 功能 不 只 由 几 个 分 子 或 基因 所 控制 
的 。 相 反 , 几 乎 所 有 的 生物 特征 都 是 由 细胞 内 众多 成 分 (如 DNA、RNA 有 蛋白质、 酶 和 代 
谢 子 等 ) 之 间 复 杂 的 相互 作用 所 引起 的 。 因 此 ,人 们 必须 要 在 成 千 上 万 个 生物 分 子 组 成 
的 复杂 系统 的 层面 上 予以 认识 ,而 不 仅仅 研究 少数 几 个 基因 的 功能 。 揭 示 数 量 巨 大 的 生 
物 大 分 子 及 其 间 的 相互 作用 如 何在 复杂 的 生存 环境 中 行使 生物 学 功能 ,需要 研究 者 采用 
不 同 于 传统 生物 学 研究 手段 的 新 技术 。 这 样 复杂 的 系统 可 以 自然 地 模拟 作 人 们 很 熟悉 
的 概念 : 网 络 。 生 物 分 子 网 络 与 其 他 网 络 在 现实 世界 中 普遍 存在 。 例 如 ,近年 来 我 国 修 
建 的 高 速 公路 将 众多 城市 连接 为 一 个 巨大 的 网 络 , 城 市 作为 网 络 中 的 节点 通过 公路 与 其 
他 城市 连接 在 一 起 。 互 联网 本 身 也 是 一 个 巨大 的 网 络 ,网 络 服务 器 .个 人 计算 机 和 其 他 
计算 设备 被 通讯 线路 连接 在 一 起 ,通过 网 络 中 节点 之 间 的 连接 ,实现 了 全 球 计算 机 间 的 
高 速 通讯 与 信息 资源 共享 。 在 我 们 的 周围 还 有 人 或 者 群体 作为 节点 被 多 种 多 样 的 关系 
关联 起 来 的 社会 学 网 络 。 在 生物 医学 领域 ,各 种 复杂 疾病 ,如 各 种 癌症 、 糖 尿 病 高 血压 、 
精神 分 裂 症 等 的 发 生 和 发 展 同样 大 多 由 于 细胞 内 部 多 个 分 子 、 基 因 、 蛋 白 的 改变 而 影响 
正常 的 生物 学 过 程 。 细 胞 内 部 的 各 基因 、 蛋 白 间 ,彼此 相互 作用 进而 形成 复杂 的 蛋白 质 
网 络 、 基因 表达 网 络 、 信 号 传导 网 络 、 转 录 调 控 网 络 、 代谢 网 络 等 。 因 此 ,基于 生物 学 网 络 
的 疾病 相关 研究 中 ,研究 者 们 通常 利用 网 络 分 析 技 术 , 从 系统 角度 揭示 复杂 疾病 的 产生 
和 发 展 规律 。 本 章 将 介绍 生物 学 网 络 分 析 在 系统 生物 学 中 的 应 用 。 通 路 作为 生物 学 网 
络 的 一 种 重要 类 型 ,本 章 将 对 基于 网 络 的 通路 分 析 进 行 详细 介绍 和 应 用 实例 展示 
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Section 1 Description of Network 


现实 世界 的 复杂 系统 ,尤其 生物 系统 中 ,包含 很 多 不 同 层面 和 不 同 组 织 形 式 的 网 络 。 生 
物 系统 中 的 网 络 通常 由 许多 参与 不 同 生 物 过 程 的 分 于 元 件 组 成 ,其 中 最 重要 的 元 件 是 基因 、 
代谢 子 和 蛋白质。 但 对 “系统 ”而 言 , 关 键 不 是 这 些 元 件 本 号 ,而 是 元 件 之 间 的 关联 关系 。 
基因 代谢 子 和 和 集 日 之 间 并 不 是 彼此 孤立 的 ,细胞 内 部 的 各 基因 代谢 子 和 重 日 间 , 彼 此 相互 
作用 进而 形成 复杂 的 重 昌 质 网 络 、 基 因 表达 网 络 、 信 号 传导 网 络 、 转 录 调 控 网 络 、 代 谢 网 络 
等 。 此 外 ,生物 学 网 络 的 发 展 使 得 各 种 典型 分 析 策 略 和 分 析 方 法 迅速 扩展 到 其 他 由 生物 系 
统 数据 推导 出 的 衍生 网 络 中 ,如 疾病 基因 网 络 。 为 了 能 够 清晰 地 理解 与 分 析 网 络 ,我 们 自 先 
介绍 网 络 的 基本 概念 。 


一 、 网 络 的 定义 >> 


网 络 ( network ) 通常 可 以 用 数学 模型 中 的 图 表示 ,如 G=(V, E), HB V 是 网 络 的 节点 
集合 , EE 是 边 集 合 。 例 如 : 每 个 蛋白 质 可 以 是 图 中 的 节点 ; 那么 蛋白 质 相 互 作用 关系 可 以 构 
成 边 集合 。 如 果 V 中 的 两 个 节点 v1 与 v2 之 间 存 在 一 条 属于 E 的 边 el, 则 称 边 el 连 接 v1 与 v2, 或 
者 称 为 v1 连接 于 v2, 也 可 以 称 作 v2 是 v1 的 邻居 。 


二 、 有 向 与 无 向 网 络 >> 


根据 网 络 中 的 边 是 否 具 有 方 回 性 或 者 说 连接 一 条 边 的 两 个 节点 是 否 存在 顺序 ,网 络 可 
以 分 为 有 回 网 络 与 无 回 网 络 , 边 不 存在 方 问 性 为 无 回 网 络 ( undirected network ), "tti 8—1 A 
Ro TWAA i A. directed network ), 如 图 8-1B 所 示 。 生 物 分 子 网 络 的 方 回 性 取决 于 其 
所 代表 的 关系 ,如 调控 关系 中 转录 因子 与 被 调控 基因 之 间 存 在 顺序 关系 的 ,因此 转录 调控 网 
络 是 有 问 网 络 ,而 基因 表达 相关 网 络 中 的 边 代表 的 是 两 个 基因 在 多 个 实验 条 件 下 表达 的 高 
相关 性 ,因此 是 无 癌 的 。 
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图 8-1 网 络 分 类 图 
A. 无 向 网 络 ; B. 有 向 网 络 ; 5. 加 权 网 络 ; D. 二 分 网 络 


三 、 加 权 与 无 权 网 络 5» 


如 果 网 络 中 的 边 都 被 赋予 相应 的 数值 ,这 个 网 络 就 称 为 加 权 网 络 ( weighted network ), Pr 
赋予 的 数值 称 为 边 的 权重 ,如 图 8-1C 所 示 。 权 重 可 以 用 来 描述 节点 间 的 距离 相关 程度 fa 
定 程度 等 各 种 信息 ,含义 依赖 于 网 络 和 边 本 身 所 代表 的 意义 。 网 络 中 的 边 权 重 是 网 络 中 普 
遍 存 在 的 一 种 现象 。 如 交通 网 中 ,连接 两 个 城市 (节点 ) 的 道路 ( 边 ) 一 般 具 有 不 同 的 长 度 ， 
而 在 蛋白 质 相 互 作 用 网 络 中 ,蛋白 质 之 间 相 互 作 用 有 强 弱 之 分 。 网 络 中 边 权 重 的 引入 可 以 
定量 的 分 析 网 络 系统 ,使 结果 精度 得 以 显著 提升 。 但 分 析 的 难度 和 计算 量 也 将 成 倍加 大 。 
因此 ,最 常用 的 网 络 仍然 是 无 权 网 络 。 如 果 网 络 中 各 边 之 间 没 有 区 别 , 可 以 认为 各 边 的 权重 
相等 , 称 为 无 权 网 络 ( unweighted network )。 


四 、 二 分 网 络 》》 


当 网 络 中 的 节点 能 够 分 为 两 个 互 不 相交 的 集合 ,并 且 所 有 的 边 都 由 不 同 集合 的 市 反之 
间 连 接 构成 时 , 称 这 样 的 网 络 为 二 分 网 络 ( bipartite network ), 如 图 8-1D 所 示 。 生 物 学 网 络 中 
二 分 网 络 的 现象 非常 普遍 ,例如 ,药物 分 子 与 其 靶 重 白 的 结合 关系 \ 疾 病 与 疾病 基因 的 关系 、 
疾病 与 通路 关系 、 转 录 因子 与 靶 基 因 绑 定 关 系 、microRNA 与 靶 基 因 关 系 等 都 可 以 用 二 分 网 
络 模 型 表示 和 分 析 。 
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一 、 蛋 白质 相互 作用 网 络 >>. 


和 蛋白质 相互 作用 网 络 是 以 集 白 质 作为 节点 ,参与 同一 代谢 途径 、 生 物 学 过 程 结构 复合 
体 、 功 能 关联 或 重 白 质 间 的 物理 接触 作为 边 的 网 络 , 如 图 8-2A 所 示 。 目 前 来 讲 , 集 日 质 互 作 
网 络 是 被 研究 最 充分 的 生物 分 子 网 络 之 一 。 蛋 日 质 是 组 成 生物 体 并 行使 生物 功能 的 重要 生 
物 大 分 子 。 入 日 质 通 过 相互 作用 构成 网 络 来 参与 生物 信号 传递 基因 表达 调 生 、 能 量 和 物质 
代谢 及 细胞 周期 调控 等 生命 过 程 的 各 个 环节 。 因 此 ,蛋白 质 互 作 网 络 对 于 理解 细胞 网 络 结 
构 及 功能 ,以 及 疾病 发 生发 展 的 基础 至 关 重 要 。 

研究 人 员 主 要 从 生物 实验 检测 和 计算 机 预测 两 个 角度 来 猎 究 重 日 质 相 互 作用 。 实 
验 检 测 技 术 主 要 有 人 免疫 共 沉 演 ( co-immunoprecipitation ) EEE LAR AZ ( yeast two Hybrid, 
Y2H ) 和 串联 亲 和 纯 化 -质谱 ( tandem affinity purification — mass spectrometry , TAP—MS ) 
技术 。 人 免疫 共 沉 演技 术 主 要 是 在 目 然 状 态 下 ,利用 抗体 抗原 反应 (western 了 印迹 法 ) 检测 
与 目标 和 蛋白 互 作 的 其 他 和 蛋白 ,由 此 确定 互 作 关 系 。 它 是 当前 最 为 可 靠 的 集 日 互 作 检 测 技 
术 。 但 无 法 检测 短暂 时 间 不 稳定 的 重 日 互 作 关 系 ,为 外 也 需要 预先 确定 竺 检测 的 互 作 关 
系 用 于 准备 相应 的 抗体 ,因此 检测 的 效率 比较 低 , 从 而 无 法 应 用 于 大 规模 的 互 作 检 测 。 
酵母 双 杂 交 技术 是 根据 酵母 的 某 些 转录 因子 (如 GAL4 ) 拥 有 DNA 结 合 域 和 转录 激活 结 
构 域 ,并 且 两 个 结构 域 空间 接近 时 表现 转录 活性 的 特点 ,检测 重 日 质 互 作 的 技术 。 通 过 
载体 转 染 、 表 达 融 合 重 日 ,报告 基因 表达 等 步骤 ,判断 竺 检测 重 日 质 之 间 是 否 存 在 互 作 关 
系 。 酵 母 双 杂交 技术 不 仅 用 来 研究 哺乳 动物 重 日 质 之 间 的 互 作 关 系 , 还 可 以 用 来 研究 高 
等 植物 和 蛋 日 质 之 间 的 互 作 。 该 技术 的 优点 是 检测 通 量 高 ,但 缺点 是 检测 结 采 的 假 阳 性 互 
作 较 高 。 串 联系 和 纯化 -质谱 技术 首先 通过 免疫 共 沉 淀 反 应 或 串联 系 和 纯化 反应 得 到 仿 
有 目的 蛋白 的 蛋白 质 复合 物 ,然后 用 质谱 分 析 或 重 昌 测序 来 鉴定 复合 体 的 各 个 组 分 。 该 
检测 技术 的 可 靠 性 高 于 酵母 双 杂 交 技 术 , 同 时 检测 通 量 也 高 。 但 是 仍 不 适用 于 检测 瞬时 
H5 ARENE o 

EG 2$ E 9 f 8.5671 1 AY ABT ACR, AMT A T FERNEARE. BAHN, FI 
HE A AE RSS Vh fei SE BE. OP, LH PR T Bayes 
网 络 等 机 带 学 习 技术 整合 多 种 数据 源 的 信息 , TRUM ZEE E JR ELTE B PRR ME USC USE 
测 和 计算 机 预测 获得 的 蛋 日 质 相互 作用 信息 的 快速 增长 ,产生 了 大 量 的 重 日 质 互 作 数 据 库 。 
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图 8-2 A4 & MMAR AH, B 基因 调控 网 络 


这 些 数 据 库 构成 了 最 为 庞大 的 生物 学 网 络 资源 。 这 些 资 源 对 于 理解 生物 系统 中 生日 质 的 工 
作 原 理 , 了 解 疾病 等 特殊 生理 状态 下 生物 信号 反应 机 制 、 蛋 白 间 的 功能 联系 都 有 重大 意义 。 
下 面 列 出 了 一 些 常 被 人 们 使 用 的 数据 库 ,包括 : 

1. STRING( http: //string-db.org/ ) 数据 库 ”该 数据 库 中 不 仅 存储 了 已 知 实验 证 实 的 重 日 
质 互 作 数 据 , 还 存储 了 预测 的 蛋白质 互 作 数 据 。 这 些 互 作 包 括 直接 物理 互 作 和 间接 互 作 ( 如 : 
功能 互 作 )。 这 些 信息 主要 来 源 于 四 个 主要 途径 ,包括 : 基因 组 信息 、 高 通 量 实验 、 基 因 共 表 
达 信息 和 先 验 知 识 。 目 前 该 数据 库存 储 了 来 自 于 1133 个 物种 的 互 作 信息 。 用 户 可 以 通过 网 
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2. BIND( http: //bind.ca/ ) 数据 库 ”该 数据 库 主要 记录 蛋白质 互 作 在 内 的 生物 分 子 间 的 
相互 作用 信息 。 该 数据 库 内 收录 的 信息 分 为 经 过 人 工 检测 评价 的 高 可 信和 互 作 信息 和 高 通 量 
技术 得 到 的 互 作 信息 。 

3. HPRD( http: //www.hprd.org/ ) 数据 库 ”该 数据 库 仅 收录 人 类 数据 ,是 一 个 包含 了 和 蛋白 
注释 信息 , 重 昌 转录 后 修饰 以 及 和 蛋白 互 作 等 多 种 信息 的 人 类 综合 性 数据 库 。HPRD 数 据 库 已 
经 成 为 文献 挖掘 方法 获取 和 蛋 日 互 作 及 转录 后 修饰 的 最 大 的 数据 库 之 一 。 

4. DIP( http: //dip.doe-mbi.ucla.edu/ ) 数据 库 ”该 数据 库 包含 人 工 检查 评价 的 可 徘 互 作 

计生 和 计算 预测 所 获取 的 高 通 量 数据 。 该 数据 库 中 文 持 多 种 物种 。 

5. MIPS( http: //www.helmholtz-muenchen.de/en/mips/ ) WHEE ”该 数据 库 包 含 了 多 种 和 蛋 
日 质 互 作 信 息 、 其 中 和 集 日 质 复 谷物 信息 较为 全 面 。 该 数据 库 也 支持 多 种 物种 。 











二 、 基 因 转 录 调 探 网络 >> 


基因 转录 调控 网 络 是 以 转录 因子 和 受到 它们 调控 的 基因 作为 节点 ,以 这 些 节 点 间 的 调 
控 关 系 作 为 边 的 有 问 网 络 , 如 图 8-2B 所 示 。 通 过 获得 大 量 的 基因 转录 调控 数据 可 以 直接 构 
建 复杂 的 基因 转录 调控 网 络 。 网 络 中 的 边 可 以 依据 转录 因子 是 促进 还 是 抑制 受 调控 基因 的 
表达 ,分 为 正 调控 和 负 调 控 两 种 边 的 关系 类 型 。 

目前 检测 基因 调控 的 技术 已 比较 成 熟 , 主 要 包括 染色 质 免 疫 沉 淀 技 术 ( ChIP ) 和 在 此 基 
础 上 发 展 起 来 的 ChIP-chip 芯 片 及 ChIP-chip 等 技术 。ChIP 可 以 检测 体内 转录 因子 与 DNA 的 
动态 作用 。 与 体内 足迹 法 、DNA 世 片 和 分 子 克 隆 等 技术 相 结合 , ChIP 技 术 已 成 为 研究 DNA 
与 蛋白 质 相 互 作 用 的 重要 方法 。ChIP-chip 芯 片 是 将 生理 状态 下 细胞 内 的 蛋白 和 DNA 结 合 
在 一 起 ,利用 超声 波 将 其 打 碎 ,然后 特异 性 地 富 集 目的 蛋白 结合 的 DNA 片 段 和 纯化 检测 这 些 
片段 ,最 终 获得 蛋白 与 DNA 作 用 的 信息 。 另 外 , 微 阵列 技术 通过 关联 基因 之 间 的 表达 水 平 也 
可 推断 基因 调控 关系 。 随 着 这 些 技术 的 发 展 ,在 短 时 间 内 可 获得 生物 体 基 因 调 控 的 海量 数 
据 , 这 为 研究 和 揭示 基因 及 其 产物 之 间 的 相互 关系 ,特别 是 基因 转录 的 调控 机 制 英 定 了 基 
础 。 目 前 ,许多 数据 库 收 集 了 大 量 的 基因 转录 调控 信息 ,一些 流 行 的 数据 库 包 括 : 

1. TRANSFAC( http: //www.gene-regulation.com/pub/databases.html ) 数据 库 该 数据 库 
提供 转录 因子 以 及 它们 在 基因 组 上 的 结合 位 点 信息 。 该 数据 库 由 SITE、GENE、 FACTOR, 
CLASS, METHOD, 、REFERENCE 等 部 分 组 成 。 此 外 , TRANSFAC 数 据 库 还 与 几 个 扩展 库 如 
PATHODB S/MARTDB , TRANSPATH .CYTOMER 库 密切 关联 。 | 

2. JASPAR( http: //jaspar.genereg.net/ ) 数据 库 “该 数据 库 是 存储 了 真 核 生物 中 转录 因子 
和 DNA 结 合 位 点 的 最 全 面 的 数据 库 之 一 。JASPAR 包 括 核心 数据 库 和 其 他 几 个 子 数据 库 ,是 
一 个 非 元 余 的 数据 库 , 其 中 包含 的 数据 都 经 过 严格 的 筛选 ,具有 实验 条 件 。 

3. TRRD( http: //wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ ) 数据 库 ”该 数据 库 提供 真 核 生 物 基 
因 调 控 区 结构 功能 特性 信息 。 转 录 因 子 结合 位 点 、 启 动 子 、 增 强 子 静默 子 以 及 基因 表达 调 

4. COMPEL( http: //compel.bionet.nsc.ru/ ) 数据 库 ”该 数据 库存 储 了 许多 复合 转录 元 件 ， 
包括 不 同 转 录 因 子 在 位 置 关 系 上 紧密 相连 的 结合 位 点 结合 部 位 之 间 的 距离 和 先后 顺序 ,以 
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及 转录 因子 的 三 维 空间 结构 。 
5. TRED( http: //rulai.cshl.edu/egi—bin/TRED/tred.cgi ? process=home ) 数据 库 该 数据 
库 是 一 个 转录 调控 元 件数 据 库 ,收集 了 实验 证 实 的 包含 人 类 小 鼠 、 大 鼠 物 种 等 哺乳 动物 顺 
式 调 控 元 件 和 反 式 作用 因子 .转录 因子 相关 数据 。 该 数据 库 不 仅 提供 转录 因子 结合 位 点 序 
列 信息 ,还 提供 转录 因子 结合 位 点 的 基因 组 定位 信息 。 数 据 经 过 人 工 校正 ,实验 证 实 ,具有 
一 定 可 靠 性 ,这 些 数 据 完全 公开 。 








三 ,代谢 和 信号 传导 网 络 》》 


细胞 内 代谢 物 在 酶 的 作用 下 转化 为 新 的 代谢 物 过 程 中 发 生 的 一 系列 的 生物 化 学 反应 
形成 了 代谢 通路 ( metabolic pathway )。 和 葡萄 糖 代 谢 就 是 一 个 典型 的 代谢 通路 ,如 图 8-3 所 示 。 
这 样 的 代谢 通路 可 以 自然 地 表示 作 代 谢 网 络 。 与 其 他 的 代谢 通路 的 联合 又 会 形成 更 大 的 
代谢 网 络 。 代 谢 网 络 包含 代谢 子 、 酶 等 生物 分 子 之 间 的 多 种 生理 和 化 学 反应 , 酶 和 代谢 子 
在 网 络 中 可 能 多 次 出 现 ,一 个 节点 也 可 能 对 应 多 个 生物 分 子 ,因此 代谢 网 络 与 和 蛋白质 互 作 
网 络 等 其 他 生物 分 子 网 络 相 比 具有 更 大 的 复杂 性 。 网 络 属于 复杂 的 超 图 模型 范畴 。 人 们 
往往 为 了 简化 网 络 的 复杂 性 ,根据 研究 目的 构建 不 同 层 次 的 代谢 网 络 。 当 研究 者 不 关心 代 
谢 反 应 中 的 酶 和 其 他 一 些 如 提供 能 量 与 磷酸 键 的 ATP 等 的 共 反 应 因子 ,就 可 以 将 网 络 转 化 
为 只 包含 主要 代谢 底 物 指向 主要 产物 的 代谢 子 网 络 。 其 至 忽略 反应 方向 的 情况 也 经 常 被 许 
多 全 究 者 采用 。 基 因 组 学 和 和 集 日 质 组 学 的 发 展 更 使 得 研究 者 经 常 将 代谢 网 络 简化 为 强调 基 
因 和 酶 的 网 络 ,而 弱化 代谢 子 。 一 种 稍 用 的 方法 是 转化 代谢 通路 为 以 酶 为 节点 , 酶 和 酶 之 间 
如 果 通 过 生化 反应 直接 共享 至 少 一 个 代谢 子 ,那么 它们 之 间 连 接 一 条 边 。 进 一 步 ,通过 获 
得 基因 编码 酶 的 信息 ,可 以 将 网 络 转化 为 基因 网 络 。 除 了 这 些 , 还 有 许多 简化 方法 被 研究 
者 广泛 使 用 。 目 前 ,一 些 软 件 也 可 处 理 代谢 通路 数据 网 络 简 化 ,如 基于 R 语 言 的 两 个 软件 包 
iSubpathwayMiner( http: //cran.r—project.org/package= iSubpathwayMiner ) 和 和 KEGGgraph( http: // 
bioconductor.org/packages/2.4/bioc/html/KEGGgraph.html ) 提供 了 多 种 方便 的 通路 简化 方法 。 

细胞 通过 将 生物 信号 或 刺激 转换 为 其 他 生物 信号 最 终 激活 细胞 反应 的 过 程 形成 了 信和 号 
传导 ( signal transduction ), 信 和 号 传导 的 过 程 中 多 个 生物 分 子 在 酶 作用 下 按照 一 定 顺 序 发 生 一 
系列 生理 化 学 反应 ,由 此 形成 信号 传导 通路 ( signal transduction pathway )。 与 代谢 通路 相似 ， 
言 号 传导 通路 可 以 自然 的 表示 作 信 和 号 传导 网 络 。 网 络 同 样 属于 复杂 的 超 图 ,并且 网 络 中 边 
的 种 类 非常 多 。 如 图 8-4 所 示 , JAK-STAT 信 号 通路 中 包含 了 激活 磷酸 化 . 泛 素 化 等 多 种 信 
号 作用 信息 。 

代谢 网 络 和 信和 号 传导 网 络 是 研究 和 分 析 代 谢 和 信和 号 传导 过 程 ,疾病 的 发 生发 展 机 制 的 
重要 工具 。 随 着 基因 组 学 、 转 录 组 学 、 和 蛋白 质 组 学 和 代谢 组 学 新 的 生物 检测 技术 的 开发 ,人 
们 对 生物 细胞 内 生化 反应 的 理解 程度 正在 不 断 加 深 ,各 种 代谢 和 信号 通路 数据 也 正 以 极 快 
的 速度 增加 。 这 些 信息 是 构建 代谢 网 络 与 信号 传导 网 络 的 基础 。 目 前 这 些 信息 被 收集 和 整 
理 到 一 些 重 要 的 通路 数据 库 当 中 ,主要 的 通路 数据 库 包 括 : 

1. KEGG 数 据 库 ( http: //www.genome.jp/kegg/ ) 该 数据 库 是 关于 基因 、 和 蛋白 、 酶 .代谢 
子 药物 .生化 反应 以 及 通路 的 综合 生物 数据 库 。 该 数据 库 实际 由 多 个 子 数 据 库 构成 。 最 
著名 的 当 属 通路 ( KEGG PATHWAY ) 子 数据 库 。 它 是 目前 最 被 广泛 使 用 的 通路 数据 库 。 
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图 8-4 KEGG 数 据 库 中 的 JAK 一 STAT 信 号 通路 
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其 中 包含 有 上 和 干 个 物种 的 代谢 与 信号 传导 通路 信息 。 这 些 信息 从 生物 学 实验 和 文献 中 提 
取 , 并 经 过 人 工 校正 。 实 时 更 新 的 管理 模式 也 使 得 人 们 能 够 从 该 数据 库 获 得 最 新 的 通路 
数据 。 

2. Reactome 数 据 库 ( http: //www.reactome.org/ ) 该 数据 库 是 一 个 含 多 物种 信息 的 通路 数 
据 库 ,存储 了 大 量 的 代谢 通路 信息 及 生化 反应 信息 ,这 些 信息 从 生物 学 实验 和 文献 中 提取 ， 
并 经 过 人 工 校正 。 该 数据 库 中 所 有 的 生物 过 程 中 的 反应 以 分 层次 的 方式 组 织 起 来 的 , 较 低 
的 层次 对 应 着 反应 , 较 高 的 层次 代表 着 通路 。 

3. WikiPathways 数 据 库 ( http: //wikipathways.org/ ) 该 数据 库 是 一 个 开放 的 共同 协作 的 
通路 数据 库 平台 。 该 数据 库 平台 允许 任何 人 创建 新 的 通路 数据 ,并 由 专业 的 生物 学 家 进行 
校正 ,因此 该 数据 库 对 现 有 通路 数据 库 如 KEGG，,Reactome 等 进行 了 补充 。 虽 然 目 前 还 不 够 
强大 ,但 该 数据 库 的 共同 协作 模式 将 极 大 地 改善 通路 数据 的 规模 和 质量 。 

4. Pathway commons 数 据 库 ( http: /www.pathwaycommons.org/ ) 该 数据 库 是 一 个 包含 了 
生物 通路 信息 及 和 蛋白 互 作 信息 的 多 物种 综合 数据 库 。 它 包含 了 来 自 Reactome 、HumanCyc、 
HPRD 等 多 个 数据 库 的 信息 ,因此 可 以 作为 获得 公共 通路 数据 库 通路 信息 的 一 个 接口 使 用 。 

5. PID 数 据 库 ( http: /pid.nci.nih.gow ) 该 数据 库 是 人 类 细胞 信号 通路 数据 库 ,存储 了 
大 量 的 信号 通路 和 关键 的 反应 以 及 各 种 分 子 互 作 。PID 中 包含 了 三 个 不 同 来 源 的 数据 ,第 一 
个 来 源 是 由 NCI 组 织 校正 的 通路 ,这 种 通路 是 从 同行 评议 的 文献 中 获得 的 ; 第 二 个 来 源 来 目 
Reactome 数 据 库 ,第 三 个 来 源 由 KEGG 数 据 库 提供 。 





四 、 衍 生 网 络 >>: 


除了 上 面 介 绍 的 几 种 常见 生物 分 子 网 络 外 ,还 有 一 些 在 它们 的 基础 上 衍生 出 来 的 生物 
网 络 。 例 如 疾病 基因 网 络 \ 疾 病 通 路 网 络 、 药 物 通 路 网 络 等 。 这 些 往生 网 络 痢 是 利用 基础 网 
络 信息 和 基本 数据 库 资 源 构建 出 的 新 型 网 络 ,适用 于 分 析 各 种 具体 的 生物 学 问题 ,下 面 我 们 
简要 介绍 几 种 衍生 网 络 。 


(一 ) 疾病 基因 网 络 


遗传 异 质 性 和 基因 多 效 性 是 很 常见 的 生物 学 现象 。 疾 病 的 发 生发 展 通 常 是 由 多 基因 突 
变 造成 的 。 随 着 实验 技术 的 发 展 , 人 们 对 疾病 的 认识 以 及 各 类 疾病 与 致 病 基 因 之 间 的 关系 
的 广泛 理解 ,产生 了 复杂 的 人 类 疾病 与 基因 之 间 的 关系 。 疾 病 基因 网 络 可 以 从 全 局 的 角度 
来 分 析 人 类 疾病 和 致 病 基因 之 间 的 复 末 关系 。 

为 了 构建 疾病 基因 网 络 ,我 们 可 以 从 疾病 相关 数据 库 , 例 如 OMIM( 人 类 备 德 尔 遗 传 在 线 ) 
数据 库 中 获得 人 类 疾病 和 疾病 基因 的 相关 信息 ,经 过 一 定 的 筛选 处 理 后 ,得 到 了 疾病 和 基因 
数据 ,然后 将 被 证 实 的 疾病 和 基因 作为 节点 ,疾病 和 基因 关系 作为 边 ,这 样 就 构成 了 人 类 疾 
病 基因 网 络 .如 图 8-5A 所 示 ,网 络 中 圆 形 代表 人 类 相关 疾病 ,方形 代表 相应 的 致 病 基因 。 人 关 
疾病 基因 网 络 跟 其 他 的 基本 网 络 一 样 ,可 以 分 析 网 络 的 基本 性 质 , 对 该 网 络 进行 功能 聚 拓 、 
模块 化 等 基本 的 网 络 分 析 。 可 以 研究 疾病 基因 在 疾病 发 生发 展 过 程 中 所 起 的 作用 以 及 从 
全 局 的 角度 分 析 某 一 种 具体 疾病 或 致 病 基 因 在 网 络 中 的 交互 作用 ,可 以 使 我 们 加 深 对 疾病 
基因 在 致 病 过 程 中 生物 学 作用 的 理解 以 及 从 更 全 面 的 角度 解释 了 疾病 的 发 生 和 发 展 过 程 。 
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图 8-5 A 疾病 基因 网 络 示意 图 ; B 疾病 通路 网 络 示意 图 


(二 ) 疾病 通路 网 络 


基因 或 蛋白 质 并 不 是 孤立 的 ,他 们 通过 互 作 形成 代谢 .调控 等 网 络 来 行使 生物 学 功能 
的 ,各 种 各 样 的 通路 网 就 是 这 些 网 络 的 典型 代表 ,同样 通路 在 发 育 \ 生 长 .衰老 和 死亡 等 一 系 
列 生 物 学 过 程 中 起 了 关键 的 作用 。 随 着 通路 信息 的 逐渐 完善 ,人 们 逐渐 用 各 种 方法 从 通路 
的 角度 来 分 析 疾 病 , 并 发 现 通路 在 疾病 的 起 始 .进展 和 转化 等 过 程 中 起 了 至 关 重 要 的 作用 。 
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当然 ,构建 出 一 个 全 局 的 疾病 通路 网 络 是 从 整体 上 分 析 疾 病 与 相关 通路 复杂 关系 的 重要 
方法 。 

我 们 可 以 从 疾病 数据 库 ( 如 OMIM ) 和 通路 数据 库 ( 如 KEGG ) 分 别 获 得 疾病 基因 信息 和 
通路 基因 信息 ,然后 将 每 个 疾病 的 所 有 疾病 基因 分 别 做 基因 富 集 分 析 。 显 著 的 富 集 通 路 ( 如: 
p«0.01 ) 与 该 疾病 就 可 以 建立 关联 关系 ,最 终 构 成 疾病 通路 网 络 ,图 8-5B 为 疾病 通路 网 络 示 
意图 ,在 网 络 中 共有 两 类 节点 ,三 角形 代表 通路 信息 , 圆 形 代表 疾病 , 边 相 连 代 表 痢 该 疾病 的 
发 生发 展 和 这 条 通路 相关 ,这 样 的 网 络 能 够 显示 了 人 类 各 种 疾病 和 疾病 相关 通路 之 间 的 复 
FARRAR ,通过 对 该 疾病 通路 网 进行 网 络 分 析 ,我 们 能 全 局 性 的 了 解 各 种 通路 以 及 在 疾病 的 发 
生发 展 中 一 些 规律 ,对 人 类 疾病 的 机 制 解释 和 治疗 有 着 指导 意义 。 我 们 将 在 本 章 第 五 节 中 
提供 一 个 实例 ,进一步 利用 网 络 分 析 技 术 更 精细 的 构建 和 分 析 疾 病 -通路 网 络 。 


(=) 药物 通路 网 络 


药物 的 多 靶 点 、 多 效应 、 多 途径 等 特性 给 药物 的 开发 和 研制 带 来 了 很 大 的 困难 ,人 们 也 
渐渐 地 发 现 大 多 数 药 物 并 不 是 作用 于 单个 蛋白 或 基因 产物 而 发 挥 功 能 的 ,药物 发 挥 药 效 作 
用 的 过 程 相 当 复 杂 ,近年 来 ,人 们 把 药物 研究 的 视野 逐渐 转向 通路 ,力求 从 通路 的 角度 探讨 
药物 的 相关 问题 , 跟 疾病 通路 网 络 一 样 ,药物 通路 网 络 可 以 作为 一 个 从 通路 的 角度 出 发 研究 
药物 的 作用 机 制药 效 以 及 副作用 等 问题 的 重要 方法 。 同 样 , 我 们 可 以 从 多 种 数据 库 ( CMap 
数据 库 、DrugBank 数 据 库 和 KEGG 数 据 库 等 ) 中 获取 通路 和 药物 相关 信息 — M 
就 提供 了 每 种 小 分 子 药物 影响 下 的 基因 表达 谱 ,从 这 样 的 数据 中 可 以 得 到 许多 药物 信息 
每 种 药物 影响 的 基因 信息 ,与 疾病 通路 网 络 类 似 ,如 果 一 E 
一 个 通路 上 ,那么 就 把 这 个 药物 和 这 个 通路 连接 起 来 ,对 于 所 有 的 药物 和 通路 来 说 ,就 构建 
出 药物 通路 网 络 。 我 们 可 以 从 中 探寻 两 个 同类 药物 (或 两 种 不 同 药物 ) 与 通路 的 连接 情况 ， 
同样 也 可 以 研究 多 个 通路 被 单个 或 药物 联合 调控 的 现象 。 总 之 ,结合 药物 的 多 靶 点 、 多 功能 
等 特性 ,药物 通路 网 络 可 以 从 全 局 上 以 通路 的 角度 分 析 药 物 作 用 过 程 中 的 特征 与 性 质 ,为 实 
验 人 员 和 药物 开发 者 提供 了 很 好 的 思路 ,为 新 药 的 开发 和 人 研制 葛 定 了 一 定 的 基础 。 
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一 、 网 络 的 拓扑 属性 分 析 55. 


网 络 的 拓扑 属性 通过 考察 节点 或 边 结构 特征 来 描述 网 络 全 局 及 局 部 的 特性 ,能 够 对 网 
络 进行 初步 探索 。 更 重要 的 是 ,这 些 属 性 构成 了 深入 分 析 网 络 的 基本 框架 。 通 过 进一步 结 
合生 物 学 信息 和 生物 系统 特点 ,网 络 的 拓扑 属性 能 够 对 深入 理解 生物 系统 及 疾病 的 生物 学 
机 制 起 到 关键 的 作用 。 下 面 介 绍 一 些 基本 的 网 络 拓扑 属性 分 析 测 度 。 

(一 ) 连通 度 

连通 度 或 度 ( degree ) 是 节点 最 基本 的 拓扑 属性 。 某 节点 的 度 定义 为 网 络 中 直接 与 该 节 
点 相连 的 所 有 边 的 数目 ,例如 在 图 8-6A 中 布点 A 的 连通 度 为 5。 如 果 网 络 是 有 方向 的 ,我 们 
通常 还 要 定义 两 个 不 同 的 连通 度 的 度量 方式 称 为 人 度 和 出 度 。 入 度 表示 网 络 中 直接 指向 该 
方太 的 所 有 边 的 数目 ,相反 ,出 度 表示 网 络 中 该 节点 直接 指 癌 其 他 节点 的 所 有 边 的 数目 , 例 
如 在 图 8-6B 中 市 点 A 的 入 度 为 3, 出 度 为 2 在 本 间 中 ,我 们 用 符号 k 表 示 连 通 度 ,k。, 表 示 出 度 ， 
ki 表示 和 人 度 。 连 通 度 是 非常 重要 的 拓扑 属性 。 尤 其 连通 度 高 的 节点 ,我 们 称 之 为 中 心 节 点 
( hub ), Blhub T 5i ,与 各 类 分 子 生物 学 功能 疾病 发 病 机 制 等 密切 相关 。 瘤 症 相 关 的 基因 也 
往往 是 hubT 点 。 在 重 日 质 互 作 网 络 中 ,必需 基因 的 翻译 产物 往往 具有 非常 高 的 连通 度 。 
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图 8-6 ”网络 拓扑 属性 的 图 例 描述 


(=) 聚 类 系数 


对 于 无 回 网 络 来 说 ,如 果 布 点 ww 连接 节 点 ww, 节 点 ww 连接 于 节点 mm, 那么 节点 w 与 节点 w 是 
否 也 会 相连 接 ? 二 者 连接 的 可 能 性 有 多 大 ? 衡量 网 络 中 的 这 种 现象 的 程度 ,可 以 使 用 聚 类 
系数 CC( clustering coefficient )。 它 能 够 测量 部 分 节点 间 存 在 的 密切 连接 程度 。 无 向 网 络 中 ， 
聚 类 系数 定义 如 下 : 


n 2n 


CC = 一 = 





公式 中 n 代 表 节 点 v 的 所 有 k 个 直接 邻居 间 存 在 的 所 有 边 的 数目 。 因 为 n 的 最 大 数目 可 以 


由 邻居 节点 的 两 两 组 合 数 C? = k (k 一 人 2 来 确定 ,因此 CC 值 的 取 值 范围 在 [0,1] 区 间 。 如 图 
8-6A 所 示 , 节 点 A 有 5 个 邻居 {B, C, D, G, H), 邻 居间 仅仅 有 一 条 边 连接 ,所 以 节点 A 的 聚 类 系 


Zxl ] 
BEN = 5-1) 10 
对 于 有 向 网 络 , 因 为 两 个 节点 之 间 人 允许 存在 方向 相反 的 边 ,此 时 聚 类 系数 被 标准 化 为 
n n 
in 7 p E E ui (E. -1) l uia 


公式 中 ,代表 v 的 出 度 , mw 代表 所 有 v 所 连接 的 节点 相互 之 间 存 在 的 边 数 。 在 图 8-6B 

中 , 节点 A 连 接 2 个 节点 CH ,其 间 不 存在 连 边 , 则 节点 A 的 聚 类 系数 为 CC = _0 

而 对 于 节点 C 出 度 也 为 2, 连接 节点 B 和 A, 其 间 存 在 一 条 边 [B_*A}, 其 聚 类 系数 为 
] l 


^ 2x(2-1) 2 


(=) 介 数 


节点 的 介 数 (betweenness ) 是 该 太 扣 出 现在 其 他 市 点 间 最 短路 径 中 的 比例 。 介 数 越 高 ， 
意味 着 在 保持 网 络 紧密 连接 性 中 市 点 越 重要 。 节 扩 v 的 介 数 B, 定 义 为 : 


Buy TH ( 8-3) 


i* j#veV O; 
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其 中 ,6o 指 市 点 i 到 的 最 短路 径 的 数目 ,o, 表 示 其 中 通过 节点 v 的 路 径 数 目 。 两 节点 间 的 
最 短路 径 指 连接 它们 的 所 有 路 径 中 最 短 的 路 径 。 例 如 在 图 8-6B 中 节点 C 到 节点 G 的 路 径 有 
1={C,B,A,G} 和 L={C,A,G}, 但 最 短路 径 为 ={C,A, Go 


(四 ) 直径 


网 络 的 直径 (diameter ) 是 所 有 连通 节点 之 间 最 短路 径 长 度 的 最 大 值 。 网 络 的 直径 代表 
者 整个 网 络 么 密 的 程度 ,是 衡量 网 络 总 体 性 质 的 指标 。 


(A) 平均 距离 


网 络 的 平均 距离 ( average distance ) 是 指 网 络 中 所 有 连通 节点 之 间 最 短路 径 长 度 的 平均 
值 ,同样 用 于 代表 整个 网 络 的 紧密 程度 。 


六 ) 桥梁 中 心性 


前 面 几 个 网 络 拓扑 属性 ,包括 度 、 介 数 和 聚 类 系数 都 是 反映 了 节点 在 整个 网 络 中 的 中 心 
地 位 ,而 桥梁 中 心性 不 仅 能 够 反映 节点 在 网 络 中 的 全 局 中 心 位 置 ,同时 还 考虑 了 在 网 络 中 的 
局 部 特征 。 节 点 的 桥梁 中 心性 测度 是 介 数 中 心性 和 桥梁 系数 的 产物 。 对 于 网 络 中 的 节点 v， 
其 桥 染 中 心性 定义 为 如 下 公式 : 

C,(v)=BC(v) x CB( v) ( 8-4 ) 

其 中 , BCCv ) 表 示 节 点 v 的 介 数 ,如 式 8-3, CB( v ) 表示 节点 v 的 桥梁 系数 , 某 节 点 的 桥梁 
系数 决定 了 该 节点 处 于 连接 度 很 高 的 节点 间 的 程度 ,定义 方式 如 下 : 


e 
d(v 
ac(v)- e) (R5) 
N PESO he 
bx UPTE 
dC v ) RIR T AVES BE, NC v ) 表示 节点 v 的 邻居 节点 集合 ,桥梁 系数 评估 了 邻居 间 的 局 部 桥 


特征 。 

C v ) 值 越 高 预示 着 有 越 多 的 信息 会 经 由 节点 v。 如 图 8-6C 所 示 , 节 点 E、B、D 的 桥梁 中 
心性 都 很 高 其 中 市 点 E 最 高 Cr( E ) 20.45. 

将 这 些 桥 染 中 心性 值 高 的 节点 称 为 桥 节点 ,这 些 桥 节点 位 于 网 络 当 中 聚集 性 相对 较 高 
的 各 个 模块 之 间 。 总 体 来 说 ,桥梁 中 心性 不 仅 考虑 了 节点 在 网 络 中 的 全 局 中 心 位 置 ,同时 还 
考虑 了 在 网 络 中 的 局 部 特征 。 


(七 ) 易 损 性 

网 络 中 茶 个 节点 对 于 整个 网 络 的 连通 性 贡献 有 多 大 ? 如 果 将 某 节 点 删除 ,是 否 会 对 整 
个 网 络 信息 交流 有 影响 ”影响 有 多 大 ? 易 损 性 能 够 衡量 某 节 点 对 整个 网 络 的 信息 传递 影响 
程度 。 具 体 地 ,利用 网 络 的 全 局 特性 来 计算 某 节 点 对 网 络 损坏 的 程度 。 网 络 全 局 特性 是 指 
网 络 方 点 间 信 息 传 递 的 效能 ,用 下 面 的 公式 来 计算 ; | 


l l 
E nime ra 
N22 (8-6) 


iej “ij 
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其 中 , d, 表 示 节 点 ;与 节点 j 之 间 的 最 短路 径 , N 表 示 网 络 中 节点 的 数目 。 
如 果 将 节点 v 从 网 络 中 删除 ,那么 整个 网 络 的 信息 传输 能 力 的 破坏 程度 表示 为 
V-( E-E; )/E ( 8-7 ) 
其 中 , EARRA Pel A f HE, BARROW AI IE. VEK, RRN 
除 节点 v 后 整个 网 络 节点 间 的 信息 传输 能 力 下 降 的 越 大 ,如 果 这 类 节点 被 删除 了 ,那么 整个 
网 络 中 信息 传输 的 效能 必然 会 变 差 。 如 将 图 8-6C 中 的 节点 A 删 除 后 ,整个 网 络 将 被 分 割 为 
了 两 部 分 ,信息 交流 效率 将 变 差 。 

















二 、 网 络 的 无 尺度 特性 分 析 》》 


无 尺度 网 络 ( scale-free network ) 指 网 络 中 度 的 分 布 符合 窘 率 分 布 , 即 p(k)~k “的 网 络 。 
如 图 8-7A 所 示 ,为 一 个 止 形 的 曲线 。 当 将 坐标 转化 为 对 数 ( log ) 坐 标 系 后 ,分布 接近 为 直线 ， 
如 图 8-7B 所 示 。 因 此 ,无 尺度 网 络 中 大 部 分 节点 的 连通 度 较 低 , 少 数 连通 度 非常 高 的 节点 使 
网 络 连 接 在 一 起 。 无 尺度 网 络 的 网 络 直径 相对 较 小 ,通常 直径 的 大 小 正比 于 网 络 中 节点 数 
目的 对 数值 的 对 数值 , 即 log( logCN ))。 这 样 直径 小 的 网 络 俗称 小 世界 网 络 。 


i 
E 
x wR 
im R 
in he: 
3 
4% 
im 
连通 度 连通 度 ( 对 数 坐 标 ) 
A B 


图 8-7 无 尺度 网 络 度 的 分 布 


许多 自然 状态 下 的 网 络 ,如 互联 网 和 人 际 关 系 网 络 , 都 是 无 尺度 网 络 。 生 物 系 统 中 ,无 
尺度 网 络 现象 更 加 普遍 。 为 了 解释 无 尺度 网 络 为 何 会 成 为 生物 分 子 网 络 的 主要 展现 形式 ， 
Barabasi 和 Albert 提 出 了 构建 了 形成 无 尺度 网 络 的 Barab4si-Albert 模 型 。 根 据 这 一 模型 ,人 研 
究 者 模拟 出 和 蛋白质 网 络 中 出 现 无 太 度 特性 的 原因 源 于 基因 复制 。 高 度 连接 的 节点 倾 加 于 杜 
发 生 复制 的 基因 产物 发 生 互 作 ,从 而 获得 额外 的 连接 。 这 符合 无 太 度 网 络 的 两 个 特点 : 成 长 
(growth ) 和 优先 连接 ( preferential attachment )。 

成 长 性 展现 无 尺度 网 络 可 以 扩充 规模 。 如 网 页 的 快速 增加 。 优 先 连 接 表 明 网 络 的 
节点 具有 连接 的 优先 级 的 区 别 ,往往 最 初 度 大 的 节点 可 以 在 网 络 增长 时 形成 更 多 的 连 
接 。 如 ,著名 的 网 站 ,更 倾向 于 连接 更 多 的 网 页 和 被 其 他 新 网 站 连接 。 因 此 ,利用 成 长 
性 和 优先 连接 性 质 可 知 , 度 高 的 节点 (hub ) 更 倾向 于 是 早期 节点 。 研 究 表明 ,大 肠 埃 布 
菌 代 谢 网 络 中 度 高 的 几 种 分 子 ,的确 是 最 古老 的 代谢 路 径 的 一 部 分 ,而 且 它 们 的 进化 历 
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史 悠 入。 基因 复制 很 可 能 使 得 生物 网 络 成 长 并 进行 优先 连接 ,最 终 形成 生物 网 络 无 广度 
网 络 。 

男 外 ,无 尺度 网 络 具有 强 蔬 性 , 即 对 意外 故障 的 抵抗 能 力 强 。 例 如 ,在 计算 机 网 络 随 
机 破坏 个 别 的 节点 不 会 导致 网 络 大 面积 的 瘫痪 。 人 体内 基因 也 会 随机 的 产生 异常 突变 ， 
但 大 多 不 会 致死 。 正 是 因为 无 尺度 网 络 大 多 数 节 点 具有 较 小 的 度 , 随 机 损坏 的 个 别 市 扩 
往往 是 不 重要 的 节点 。 因 此 ,破坏 网 络 的 能 力 非常 有 限 ,体现 在 致 病 但 不 致死 。 对 因特网 
和 细胞 而 言 , 强 韧性 使 得 网 络 能 够 应 付 随机 出 现 的 异常 。 但 是 ,生物 学 实验 也 显示 ,去 除 
那些 度 高 的 重 日 质 , 经 稼 导致 细胞 死亡 。 这 说 明 ,无 广度 网 络 对 hub 克 点 的 依赖 ,可 能 既 有 
fI BE 


三 、 网 络 的 模 序 搜索 》》》 


网 络 模 序 ( motif ) 是 指 一 类 特殊 的 子 网 模式 , 即 一 组 节点 按照 特定 的 顺序 连接 而 成 
的 结构 ,这 类 子 网 模式 在 网 络 中 出 现 次 数 远 超过 随机 情况 。 在 生物 学 网 络 中 ,包含 有 大 
量 的 这 些 特殊 的 网 络 模 序 ,搜索 这 些 模 序 可 以 深入 理解 生物 网 络 执行 生物 功能 的 基本 形 
XX ,发现 功能 元 件 的 功能 关联 关系 。 在 有 回 网 络 中 ,人 们 发 现 了 基因 调控 网 络 的 前 馈 环 
( feed-forward loop ), 自 调 控 环 ( auto-regulator loop ) 和 单 输入 模 序 ( single input motif ) 
等 一 些 非常 重要 的 模 序 。 在 许多 物种 中 ,前 馈 环 模 序 是 一 种 非常 常见 的 生物 调控 模式 。 
如 图 8-8A 所 示 , 前 馈 环 的 一 个 例子 : 转录 因子 A 调控 转录 因子 B 和 基因 C ,而 当 转 录 因 子 
B 也 调控 基因 C 时 , A、B 和 C 形 成 前 馈 环 结构 。 目 调控 环 如 图 8-8B、C 所 示 , 由 于 调控 机 制 
可 以 为 正 疝 和 人 负 疝 , 自 调控 环 有 2 种 不 同 的 类 型 。 单 输入 模 序 由 同一 个 转录 因子 同时 调 
控 许 多 基因 表达 ,而 转录 因子 通常 具有 目 调 控 性 ,所 有 调控 方向 都 相同 , 且 受 调控 基因 
不 再 受到 其 他 元 件 的 调控 ,如 图 8-8 D 所 示 。 该 模 序 经 常 出 现在 大 肠 埃 希 菌 (E.Coli ) 代 
谢 通路 相关 的 调控 中 。 除 上 述 模 序 外 ,人 研究 者 们 还 发 现 了 许多 其 他 的 模 序 ,如 密集 重 侍 
调控 ( dense overlapping regulation )、 多 输入 模 序 ( multi input motif ) 和 调控 链 ( regulator 


chain ) 等 。 
E 
A B 
© 
L) Tio 
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图 8-8 网 络 模 序 示意 图 
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”网 络 模 序 结构 代表 了 特定 的 转录 调控 机 制 ,对 这 些 模 序 的 研究 能 够 帮助 人 们 了 人 解 生 
物 过 程 的 控制 机 制 ,因此 研究 者 们 开发 了 网 络 模 序 搜索 算法 来 实现 在 网 络 中 寻找 与 模 序 
结构 同 构 的 子 网 过 程 ,以 发 现 网 络 模 序 。 基 本 的 搜索 方法 是 首先 定义 包含 k 个 节点 子 网 模 
式 ; 然后 搜索 网 络 内 全 部 C 个 包含 个 节点 的 节点 子 集 (入 代表 网 路 的 节点 总 数 ), 并 记录 
结构 与 所 搜寻 的 模式 相符 的 次 数 ; 最 后 ,将 各 个 模式 在 真实 网 络 中 出 现 的 次 数 和 在 随机 网 
络 中 所 出 现 的 次 数 进行 比较 ,从 而 发 现 真实 网 络 中 出 现 次 数 远 超过 随机 情况 的 网 络 模 序 。 
由 于 搜索 算法 非常 耗 时 ,目前 网 络 模 序 的 搜索 往往 只 针对 一 些 较 小 的 子 网 模式 来 进行 
分 析 。 

Mfinder 和 MAVisto 是 两 蒜 搜 索 网 络 模 序 的 软件 , mfinder ( http: //www.weizmann.ac.il/mcb/ 
UriAlon/groupNetworkMotifSW.html ) 需要 通过 命令 行 的 形式 进行 操作 , 而 MAVisto( http: // 
mavisto.ipk-gatersleben.de/ ) 则 包含 了 一 个 图 形 界 面 。 两 款 软件 均 可 以 设 定 特定 的 网 络 模 序 
规模 并 设计 随机 扰动 以 获取 相应 模 序 出 现 频 率 的 显著 性 。 








四 、 网 络 的 功能 模块 识别 >>> 


细胞 内 的 分 子 通 常 以 模块 化 的 形式 行使 功能 。 虽 然 网 络 模块 ( network module ) 没 
有 一 种 严格 的 定义 ,但 通常 网 络 模块 是 指 在 物理 位 置 和 功能 上 紧密 联系 的 一 组 节点 。 如 
生物 网 络 中 的 一 组 生物 分 子 。 一 个 复杂 的 网 络 系统 中 经 常 包含 很 多 模块 ,例如 在 社会 网 
络 中 ,人 类 往往 会 以 各 种 兴趣 、 爱 好 和 关系 等 结 成 各 种 团体 。 在 人 类 的 工业 化 生产 中 ， 
也 往往 有 意识 地 采用 模块 化 设计 。 小 到 移动 电话 、 个 人 电脑 ,大 到 航天 怖 械 的 设计 都 采 
用 看 模块 化 的 设计 提高 工程 效率 和 稳定 性 。 生 物 学 的 网 络 系统 也 包含 各 种 模块 化 现象 。 
例如 重 日 质 往往 结合 成 复合 物 来 行使 生物 学 功能 ,而 蛋白 质 与 核酸 分 子 所 组 成 的 复合 物 
在 从 核酸 合成 到 重 日 质 降解 的 生物 基本 功能 中 部 发 挥 了 重要 的 作用 。 在 生物 应 激 反 应 
过 程 中 ,共同 调控 的 生物 分 子 也 协同 完成 使 生物 体 适应 内 外 环境 变化 的 生物 功能 。 这 一 
部 分 ,我 们 将 介绍 从 网 络 中 发 现 模块 的 方法 和 衡量 网 络 模 块 化 程度 的 方法 。 依 赖 于 网 络 
研究 领域 ,网 络 模块 识别 一 般 也 可 以 称 为 网 络 聚 类 和 图 划分 。 在 本 章 中 ,我 们 将 不 区 分 


(一 ) 连通 组 分 模块 


网 络 中 如 果 两 个 布点 间 能 够 由 一 条 路 径 连 接 , 则 称 这 两 个 节点 是 连通 的 。 所 有 能 够 彼 
此 连通 的 节点 和 它们 之 间 的 边 构 成 了 一 个 连通 组 分 。 计 算 网 络 的 所 有 连通 组 分 , 即 连 通 子 
图 。 每 个 连通 组 分 形成 一 个 连通 组 分 ( connected components ) 模块 。 例 如 ,对 于 图 8-9 所 示 
网 络 来 说 ,有 两 个 连通 组 分 模块 。 这 是 最 简单 的 模块 识别 方法 ,一 般 用 于 其 他 识别 模块 方法 
的 初始 化 阶段 。 该 方法 有 较 大 的 缺陷 ,如 果 节 点 连通 性 较 好 ,形成 的 模块 的 规模 将 非常 大 。 
连通 组 分 还 有 两 个 的 扩展 版 本 强 连 通 组 分 和 双 连 通 组 分 。 强 连通 组 分 (strongly connected 
component ) 指 有 向 网 络 中 两 个 节点 从 两 个 方向 上 都 可 通达 。 双 连通 组 分 (biconnected 
component ) 在 组 分 中 的 结果 有 两 个 非 交 对 的 路 径 。 
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图 8-9 连通 组 分 模块 示意 图 


(二 ) 基于 hub 的 模块 


一 个 基于 hub 的 模块 ( Hub-based module ) 包含 一 个 中 心 hub( 度 高 的 节点 ) 和 与 它 距 离 
小 于 等 于 d 的 那些 节点 。 在 蛋白 质 网 络 中 的 hub 与 细胞 致死 性 ( lethality ) 有 关 , 并 且 与 相同 的 
hub 连 接 的 蛋白质 一 般 具 有 相似 的 功能 。 基 于 hub 的 模块 具体 识别 步骤 如 下 : 

1. 计算 网 络 中 的 每 个 节点 的 度 。 

2. 定义 度 高 于 指定 靖 值 (如 : 大 于 10 ) 的 节点 为 hub 节 点 。 

3. 每 个 hub 和 与 它 距 离 小 于 等 于 d 的 节点 形成 一 个 模块 。 

对 于 图 8-9 所 示 网 络 来 说 ,如 果 设 置 度 为 6 的 节点 为 hub 太 点, d 设 置 为 1。 那 么 网 络 将 产 
生 两 个 基于 hub 的 模块 M,={H, A, E,D,1,J, K}AIM,=(R,S,0,N, P,Q, T). 


(三 ) 完全 图 模块 


完全 图 模块 ( cliques module ) 是 每 对 市 点 都 下 接连 接 的 图 。 对 于 图 8-9 所 示 网 络 , (R, S, 
O, N, P, Qj 是 一 个 由 6 个 区 点 组 成 的 完全 图 模块 ,而 条 , K, M, 是 一 个 4 市 点 的 完全 图 模块 。 
在 蛋白 质 网 络 中 的 完全 图 模块 经 党 对 应 蛋白 质 混合 物 和 共同 的 功能 。 这 种 模块 也 反映 了 共 
表达 基因 的 徐 。 完 全 图 模块 在 实际 应 用 中 可 能 过 于 严格 。 例 如 ,一 个 重 白 质 可 能 与 重 日 质 
混合 物 中 的 多 个 重 日 质 互 助 而 不 一 定 与 折 有 重 白 质 互 作 。 而 这 个 重 晶 质 和 与 其 相互 作用 的 
混合 物 往 往 行使 相似 功能 。 男 外 ,检测 技术 的 缺陷 可 能 导致 失去 重 日 质 混合 物 中 的 个 别 重 
日 与 其 他 重 白 的 互 作 。 总 之 ,完全 图 模块 有 时 可 能 过 于 严格 。 因 此 , palla 等 人 提出 全 连接 集 
搜索 方法 ( clique percolation method, CPM ) 来 改善 过 于 严格 的 完全 图 模块 识别 。 算 法 如 下 : 

1. 寻找 网 络 中 所 有 的 完全 图 ,这 将 形成 多 个 不 同市 点 数 k 的 clique, 即 k-cliques ( k=3,4，… )。 

2. 合并 所 有 共享 k-1 个 节点 的 k-clique, 合 并 后 的 子 图 形成 模块 ,也 称 为 k 完 全 图 社区 
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( k-clique-community )。 

如 图 8-9 所 示 网 络 , (I, J, K, L, MAE FAI, J, L, MA, K, L, M} 两 个 4-clique 形 成 的 4 完 
全 图 社区 模块 。 我 们 可 知 {I1, J, K, L, M} 并 不 是 完全 图 ,但 节点 连接 非常 紧密 。palla 等 人 开 
发 了 该 方法 的 软件 CFinder。 它 能 实现 网 络 密集 集团 模块 搜索 和 可 视 化 分 析 。 


(四 ) 基于 介 数 的 模块 识别 


Girvan 和 Newman 自 次 发 现 边 介 数 对 于 识别 模块 非常 有 效 。 介 数 大 的 边 往 往 是 两 个 模 
块 交互 的 必 经 之 路 。 因 此 ,删除 介 数 大 的 边 ,将 倾向 于 识别 那些 功能 相对 集中 的 模块 。 我 们 
将 介绍 两 种 基于 介 数 的 模块 识别 方法 。 介 数 中 心性 聚 类 ( betweenness centrality clustering, 
BCC ) 和 介 数 共 发 生 分 裂 (betweenness commonality decomposition, BCD ) 聚 类 。BCC 也 称 为 
CN 算法 ,由 Girvan 和 Newman 开 发 而 得 名 。 算 法 如 下 ; 

1. 计算 在 网 络 中 的 所 有 边 的 介 数 。 

2. 删除 最 高 介 数 的 边 。 

3. 重新 计算 网 络 中 的 所 有 边 的 介 数 。 

4. 重复 步骤 2、3 直 到 没有 任何 边 存 在 。 

算法 结果 将 产生 层次 聚 类 结构 来 表示 模块 ,因此 该 方法 属于 分 裂 的 层次 聚 类 。 因 为 这 
个 算法 每 次 需要 重新 计算 删除 边 后 的 介 数 ,因此 ,该 算法 较为 耗 时 。 

介 数 共 发 生 分 裂 聚 类 是 介 数 中 心性 聚 类 的 改进 版 本 。 该 方法 引入 共 发 生性 测度 来 加 强 
连接 紧密 的 和 蛋 日 质 的 聚 类 ,该 方法 更 适合 蛋白 质 网 络 中 寻找 功能 模块 。BCD 算 法 如 下 : 

1. 计算 在 网 络 中 的 所 有 边 的 共 发 生性 (C )。 边 共 发 生性 (commonality ) 衡量 一 个 边 对 
应 的 两 个 端点 共享 的 邻居 高 于 随机 发 生 情 况 的 程度 。 


k+l 
Janm (8-8) 


n, m 代 表 两 个 端点 的 度 ,k 代 表 共 享 的 邻居 数 。 
2. 计算 在 网 络 中 的 所 有 边 的 介 数 ( B )。 

3. 删除 B/C 比值 最 大 的 边 。 

4. 重复 步 又 2.3 直 到 没有 任何 边 存在 。 


(A) 最 大 化 模块 化 测度 的 聚 类 


一 个 好 的 模块 划分 方案 得 到 的 结果 应 该 使 得 模块 内 的 边 更 多 而 模块 间 的 边 更 少 。 如 果 
最 小 化 模块 间 的 连接 (或 最 大 化 模块 内 的 连接 ), 那 么 最 优 的 划分 方案 是 形成 一 个 单一 模块 ， 
那样 模块 间 没 有 任何 连接 。 模 块 化 测度 ( modularity measure ) 能 够 解决 这 个 问题 。 对 于 一 个 
网 络 ,如果 给 定 一 个 划分 成 模块 的 方案 ,模块 化 M 定 义 为 : 


| l d ^ 
M=) dum (ee 一 
| GP | ( 8-9) 


Ce 


s=l 


Nu 是 模块 的 数量 , L 表 示 在 网 络 中 边 的 数量 , /代表 在 模块 * 中 的 边 数量 , & 代 表 在 模块 
TAT AA BE AY AM 
许多 算法 使 用 该 测度 来 估计 模块 识别 方法 的 效果 。 既 然 高 模块 化 测度 值 代表 划分 方案 
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高 的 网 络 模块 化 程度 。Clauset 等 人 利用 最 大 化 模块 化 测度 的 策略 开发 了 贪心 方法 。 从 一 些 
初始 节点 出 发 ,迭代 的 试探 加 入 邻近 的 节点 和 边 。 加 入 的 边 保 证 使 模块 化 M 值 始终 增加 ,下 
到 值 无 法 继续 增加 时 得 到 最 佳 的 模块 识别 结果 。Blondel 等 人 开发 了 局 部 最 优 方 法 ,该 方法 
计算 初始 划分 后 ,将 每 个 划分 后 的 族 当 成 新 的 更 小 网 络 中 的 布点 ,然后 在 这 样 更 小 的 网 络 中 
寻找 保证 模块 化 M 值 增加 的 划分 。 直 到 M 不 增加 算法 停止 。 该 方法 速度 快 , 聚 类 效果 也 往往 
比 前 述 的 贪心 方法 好 。Guimera 和 Amaral 等 人 提出 模拟 退火 算法 寻找 使 M 最 大 化 的 划分 。 枚 
举 所 有 划分 非 稼 耗 时 ,该 方法 使 用 模拟 退火 算法 进行 快速 搜索 ,实现 寻找 目标 函数 最 优 的 模 
块 划 分 。 因 为 该 方法 是 全 局 优化 方法 ,因此 得 到 的 效果 往往 比 上 面 的 局 部 最 优 方法 好 。 

除了 以 上 所 述 的 模块 识别 方法 外 ,还 存在 大 量 的 方法 用 于 网 络 的 模块 识别 。 如 原始 用 
于 基因 表达 谱 的 凝聚 层次 聚 类 方法 可 以 用 于 网 络 的 模块 识别 ,这 需要 在 聚 类 前 先 把 网 络 表 
示 为 邻接 矩阵 形式 。 它 还 适用 于 二 分 网 络 的 聚 类 。 二 分 网 络 只 需 使 用 双 回 聚 类 方法 即 可 
实现 二 分 网 络 模块 识别 。 社 会 网 络 的 k-clique 算 法 也 可 以 用 于 网 络 的 模块 识别 。 一 个 社会 
网 络 的 k-clique 为 网 络 中 任意 节点 之 间距 离 小 于 等 于 k 的 子 图 , 相 比 完全 图 模块 ,社会 网 络 的 
k-clique 模 块 更 强调 市 点 间距 离 了 还 近 关 系 。 


五 网 络 分 析 软 件 》》， 


(一 ) Cytoscape 软 件 


Cytoscape( http: //www.cytoscape.org ) 是 最 强大 的 图 形 化 可 视 化 .编辑 和 分 析 生 物 学 网 络 
的 软件 ,界面 如 图 8-10 所 示 。 该 软件 文 持 多 种 网 络 输 入 格式 ,也 可 以 使 用 软件 提供 的 编辑 融 
直接 构建 新 的 网 络 。Cytoscape 还 能 够 为 网 络 添加 丰富 的 注释 信息 ,也 可 以 方便 地 加 载 自 号 
以 及 第 三 方 开 发 的 大 量 功能 插件 。 由 于 许多 网 络 研 究 人 员 向 Cytoscape 官 方 网 站 提供 大 量 的 
网 络 分 析 和 可 视 化 插件 ,使 得 Cytoscape 包 含 了 许多 功能 强大 和 特异 性 的 插件 ,例如 生物 学 网 
络 的 各 种 最 新 的 网 路 分 析 方 法 插件 。 









s Cytoscape Desktop (Session: pathway > cya) 

File Edit View Select Layout Plugins Help 
So aaa y iusg-- 
I otrork VisMlapper™| Editor | Filters, 





Falcone te Cytoscape 26.1 Right-click * drag to 2008 Siddle-click + drag to PAN 


图 8-10 Cytoscapest # X% 
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(=) 基于 R 的 网 络 分 析 软 件 : RBGL 和 igraph 包 


R 语 言 系统 (http: //www.r-project.org ) 最 早 是 由 Robert Gentleman 和 Ross Ihaka 开 始 编制 , 
系统 界面 如 图 8-11 所 示 。 目 从 基于 R 的 bioconductor 项 目 启 动 以 来 , R 已 经 成 为 生物 数据 处 理 
和 分 析 最 强大 的 工具 之 一 ,目前 有 许多 基于 R 的 网 络 分 析 程 序 包 。 最 强大 的 包 是 igraph( http: // 
igraph.sourceforge.net/ ) 和 bioconductor 的 RBGL 包 ( http: //www.bioconductor.org/ )。 他 们 提供 了 
大 量 的 函数 用 于 网 路 构建 \ 不 同形 式 的 输出 。 网 络 分 析 功 能 非常 强大 ,包含 了 基本 的 度 、 介 
数 等 数 十 种 网 络 拓扑 属性 测度 。 也 包含 评估 网 络 ,如 power-law 分 布 和 寻找 各 种 网 络 模块 的 
方法 ,如 CN 基于 介 数 .最 大 化 模块 化 测度 的 聚 类 算法 。 使 用 R 来 进行 网 路 分 析 的 最 大 特点 
当 属 用 户 可 以 方便 地 目 定义 开发 新 的 网 络 分 析 方法 和 改变 原 有 方法 。 因 此 ,非常 适合 有 一 
定编 程 基础 的 网 络 分 析 用 户 使 用 。 





文件 编辑 查看 其 他 程序 包 窗口 wb 


R version 2.14.1 (2011-12-22) 

Copyright (C) 2011 The R Foundation for Statistical Computing 
ISBN 3-900051-07-0 

Platform: i1386-pc-mingw32/1386 (32-bit) 


Senet. HEE 
Sg ET LER CE T 
Fi'iicense()'EX'iicence()" 来 看 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 、 
用 'contributors() ' 来 看 合作 者 的 详细 情况 

用 'citation() ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 . 

用 'demo () ' 来 看 一 些 示范 程序 ， 用 'heip1() anaes 或 
用 'heilp.start () ' 通 过 HTML 浏 览 器 来 看 帮助 文 

用 'q() SR HR. 


^ | 





图 8-11 R 系 统 的 界面 
(三 ) CFinder 软 件 


CFinder( http: //cfinder.org ) 提供 全 连接 集 搜索 方法 和 可 视 化 分 析 , 界 面 如 图 8-12 所 示 。 
完全 图 模块 在 实际 应 用 中 可 能 过 于 严格 ,例如 ,检测 技术 的 缺陷 可 能 导致 失去 重 日 质 混 合 物 
中 的 个 别 重 白 与 其 他 和 集 白 的 互 作 。CFinder 提 供 全 连接 集 搜索 方法 来 改善 过 于 严格 的 完全 
图 模块 识别 ,并 且 可 以 获得 交合 的 模块 ,这 更 符合 生物 学 的 模块 含义 。 


(四 ) GraphWeb 网 站 平台 


GraphWeb( http: //biit.cs.ut.ee/graphweb/ ) 是 一 个 基于 网 页 形式 的 生物 学 网 络 分 析 和 功 
能 模块 识别 工具 ,界面 如 图 8-13 所 示 。 该 工具 提供 整合 异 质 性 数据 和 多 物种 数据 来 构建 有 
问 和 无 回 、 加 权 和 无 权 网 络 的 方法 。 更 具 特 色 的 是 ,该 工具 提供 了 多 种 识别 网 络 的 功能 模块 
的 方法 。 包 含 了 发 现 连通 组 分 模块 .基于 hub 的 模块 、 完 全 图 模块 和 MCL 模 块 的 方法 。 也 提 
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图 8-12 CFinder 软 件 的 界面 


供 解释 这 些 模块 的 生物 含义 的 策略 。 模 块 中 的 基因 能 够 自动 的 注释 到 CO 或 KEGG 等 数据 库 
来 发 现 模 块 的 生物 学 功能 。GraphWeb 基 于 网 页 形式 ,用 户 操作 非常 方便 。 
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图 8-13 GraphWeb 网 站 界面 
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Section 4 Network-based Methods of Pathway Analysis 


随 着 后 基因 组 时 代 的 来 临 ,从 组 学 (“omic”) 的 层面 对 疾病 风险 通路 分 析 已 成 为 一 种 
必然 而 又 合理 的 趋势 。 高 通 量 生物 必 片 ,大 规模 基因 突变 检测 等 技术 的 发 展 产生 了 大 规模 
的 ,几乎 涵盖 了 各 种 常见 疾病 的 基因 数据 。 人 研究 者 们 利用 这 些 数 据 在 分 析 疾 病 相关 代谢 通 
路 、 信 号 通路 方面 取得 了 很 好 的 研究 效果 。 其 中 最 常用 的 通路 分 析 是 识别 与 兴趣 问题 相关 
的 通路 。 一 个 有 效 的 方法 是 使 用 前 面 章节 介绍 的 基因 集合 富 集 分 析 方 法 ( 详 见 第 三 章 )。 经 
典 的 方式 是 分 析 一 组 兴趣 基因 列表 (如 : 差异 表达 基因 集 ) 在 各 个 通路 上 是 否 过 出 现 , 可 以 
使 用 超 几 何 检验 ( hypergeometric test ) 和 Fisher 精 确 检 验 等 统计 学 方法 识别 显著 富 集 的 通 
路 。 对 于 像 基 因 表 达 详 等 全 基因 组 检测 得 到 的 数据 ,还 可 以 使 用 CSEA( gene set enrichment 
analysis ) 方法 简化 感 兴趣 基因 列表 的 获得 过 程 ,避免 兴趣 基因 集合 选择 过 程 的 偏好 性 。 然 
而 ,这 些 方法 的 设计 思想 都 是 把 通路 内 的 基因 简化 成 集合 ,忽略 通路 内 基因 间 已 知 的 相互 作 
用 关系 。 通 路 数据 库 中 存储 的 通路 信息 区 分 于 CO 数据 库 的 信息 的 最 大 特点 就 是 通路 数据 
具有 精确 的 内 部 分 子 的 相互 作用 关系 , 即 通路 结构 信息 。 这 种 忽略 通路 内 基因 间 已 知 的 相 
互 作用 关系 的 缺陷 造成 通路 分 析 的 精确 度 明 显 下 降 , 对 通路 内 已 有 的 先 验 互 作 关 系 也 造成 
了 彻底 的 浪费 。 故 外 通路 之 间 的 交互 信息 也 非常 重要 ,尤其 复 末 疾病 发 生 多 是 由 多 个 通路 
的 协同 作用 导致 异常 所 致 。 下面 将 介绍 几 种 利用 网 络 分 析 技 术 有 效 挖 据 通 路 中 的 结构 信息 、 
交互 作用 来 进行 通路 分 析 的 方法 。 


一 、 影 响 分 析 方 法 》》 


影 啊 分 析 ( impact analysis ) 方 法 由 Draghici 等 人 提出 。 该 方法 既 考 虑 了 经 典 的 统计 学 分 
析 的 通路 得 分 ,又 考虑 了 基因 表达 值 定量 的 变化 和 这 些 基因 在 通路 中 的 位 置 对 通路 的 影响 
情况 。 例 如 ,在 胰岛 素 ( insulin ) 通 路 中 ,胰岛 素 受 体 ( insulin receptor, INSR ) 处 于 通路 的 起 
始 位 置 , 它 的 损坏 将 导致 整体 通路 受到 影响 ,丧失 正常 功能 。 而 在 这 个 通路 的 下 游 中 的 许多 
基因 的 损坏 对 通路 没有 大 的 影响 。 因 此 , Draghici 等 人 认为 基因 在 通路 中 的 位 置 非常 重要 ， 
尤其 是 处 于 起 始 或 上 游 位 置 的 基因 。 胰 岛 素 受 体 有 多 种 功能 ,并 参与 到 多 个 通路 中 。 虽 然 
在 胰 马 素 通路 中 INSR 起 到 了 关键 作用 ,但 在 黏着 点 (adherens junction ) 通路 中 ,除了 胰岛 素 
受 体外 ,还 有 许多 酷 氮 酸 激酶 受 体 替 代 胰 咏 素 受 体 对 通路 的 作用 。 因 此 ,在 这 个 通路 中 胰岛 
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素 受 体 的 损坏 对 通路 的 影响 ,并 不 像 在 胰岛 素 通 路 中 那样 强烈 。 因 此 ,即使 同一 个 受 体 ,在 
不 同 通 路 中 因为 通路 结构 不 同 ,对 通路 影响 力也 不 同 。 为 了 解决 这 些 问 题 ， iler 
用 通路 结构 信息 ,提出 了 影响 分 析 测 度 ,如 下 : 








> |PF (e) 


(IF) P -log (+ + 一 一 一 一 一 (8-10) 
|AE|x N ( p, ) 


第 一 项 log (十) 表示 通路 P 的 超 几 何 检验 显著 性 值 ( 即 , 基 因 富 集 分 析 结果 )。 第 二 项 
Pi 


表示 通路 P 内 差异 基因 对 该 通路 的 整体 影响 ,该 项 值 利用 了 通路 结构 信息 进行 计算 ,依赖 于 
基因 在 通路 中 的 表达 值 和 通路 内 基因 的 互 作 。 其 中 Ms。( p, ) 为 通路 P 内 的 差异 表达 基因 数 ; 
AZ| 为 平均 基因 表达 量 ; PF( g ) 表 示 该 通路 内 基因 g 的 影响 得 分 , 它 由 基因 g 自 身 的 得 分 和 上 
游 的 基因 影响 得 分 构成 ,计算 公式 如 下 : 

PF(u) 
Na (u) 


^ E( g ) AAA GAY 26 5r 263 8; US, 为 基因 g 在 该 通路 中 的 所 有 上 游 基 因 ; Nalu ) 为 基 
因 u 的 下 游 基 因数 ; 如 果 基 因 u 正 调控 基因 g, 则 p=1 ,否则 ps=-1。 从 PF(g ) 计 算 公 式 可 知 ， 
如 果 一 个 差异 基因 出 现在 通路 的 上 游 ,那么 它 将 对 下 游 的 许多 基因 影响 得 分 具有 页 献 。 差 
异 程度 大 ,贡献 也 越 大 。 而 出 现在 下 游 的 差异 基因 ,贡献 力 有 限 。 因 此 影响 分 析 方 法 更 加 强 
调 通路 上 洲 基 因 的 影响 作用 。 影 响 分 析 方 法 的 第 二 项 与 谷歌 Google ) 网 站 的 页 面 排序 方法 
类 似 。 如 果 一 个 网 页 有 许多 网 页 指向 它 ,那么 这 个 网 页 是 重要 的 ,而 对 于 基因 来 说 是 ,一 
基因 能 够 影响 通路 下 游 的 许多 基因 ,那么 这 个 基因 在 通路 中 更 加 重要 。 

Draghici 等 人 将 该 方法 用 于 肺癌 和 乳腺 癌 的 风险 通路 识别 ,取得 了 非常 好 的 效果 。 通 过 
与 超 几 何 和 GSEA 方 法 比较 ,发 现 该 方法 能 够 有 效 识 别 与 疾病 相关 的 通路 。 尤 其 是 疾病 风险 
基因 在 通路 中 分 布 数量 少 ,但 在 通路 的 起 始 位 置 起 到 关键 作用 的 那些 通路 。 由 于 该 方法 针 
对 信和 号 通路 的 特点 开发 ,因此 非常 适用 于 信和 号 通路 的 识别 ,对 代谢 通路 的 识别 性 能 可 能 效果 
不 佳 。 





PF (g) - AE(g)* 2, Be” (8-11) 
ueUS, 


二 、 潜 能 通路 识别 分 析 >> 


Pam 等 人 开发 的 潜能 通路 识别 分 析 ( latent pathway identification analysis, LPIA ) 方 法 强 
调 通 路 间 的 交互 重要 性 。 例 如 ,癌症 的 发 生 和 转移 往往 与 多 个 通路 的 交互 作用 联合 导致 的 
异常 密 不 可 分 。 而 且 , 与 更 多 相关 的 异常 通路 密切 的 通路 在 癌症 的 发 生发 展 中 更 为 重要 。 
因此 ,这 样 的 通路 更 应 该 被 方法 有 效 加 以 识别 。 为 了 实现 这 一 功能 ,首先 应 该 构建 通路 和 通 
路 之 间 的 交互 网 络 。Pam 等 人 利用 每 个 通路 中 的 基因 集合 获得 与 该 通路 相关 的 功能 ,如 GO 
功能 。 然 后 根据 共享 功能 的 程度 ,将 通路 与 通路 联系 起 来 ,形成 一 个 网 络 ,如 图 8-14A 所 示 。 
通路 是 网 络 中 的 节点 ,通路 与 通路 之 间 的 边 代 表 共 功能 。 边 具有 权 值 , 代 表 共 功能 的 程度 。 
这 个 程度 根据 通路 中 共享 功能 的 基因 数 和 基因 差异 表达 量 来 获得 。 具 体 计 算 方法 如 下 : 
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GAP 
GUP 


P 表 示 通 路 ,G 表 示 功 能 ,也 就 是 GO 中 的 一 个 功能 项 ( term )。DE 代 表 基 因 的 差异 表达 值 。 
Med 代 表 中 位 值 。G PP 为 通路 P 中 具有 功能 G 的 基因 ,G O P 为 通路 P 和 功能 G 中 所 有 的 基 
因 。 如 果 一 个 通路 包含 更 多 与 对 应 功能 相关 的 基因 ,并 且 这 些 基因 的 差异 表达 量 更 大 ,那么 
wor 的 值 越 高 。 因 为 两 个 通路 有 可 能 共享 多 个 功能 ,因此 ,测度 4, 整 合 了 它们 的 所 有 权 值 wep 
作为 衡量 两 个 通路 的 交互 得 分 。 如 下 : 








«med (DE, :x GP} ( 8-12 ) 


Wop 


G 
A, 一 Lon AW P, ( 8-13) 


每 两 个 通路 计算 得 分 后 ,将 获得 通路 的 边 加 权 网 络 ,如 图 8-14B 所 示 。 对 该 网 络 使 用 随 
机 游 走 方法 ,可 以 计算 每 个 通路 的 交互 重要 性 ,并 对 所 有 通路 根据 它们 的 交互 重要 性 与 随机 
情况 比较 ,获得 每 个 通路 的 交互 显著 性 。 交 互 显 着 性 越 强 代表 这 个 通路 更 可 能 与 该 疾病 相 
关 。 例 如 ,按照 该 方法 原理 ,图 8-14B 中 的 通路 A 将 与 该 疾病 最 为 显 闭 相关 。 


B 





图 8-14 LPIA 方 法 构建 的 通路 网 络 示 意图 
A. 通 路 为 节点 的 网 络 ; B. 边 具有 权重 的 网 络 ; 
即 对 A 网 络 中 的 边 赋予 交互 程度 
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三 、 通 路 分 析 软件 >>> 


(一 ) DAVID 软 件 


DAVID( http: //david.abcc.nciferf.gov/ ) 是 一 球 强 大 的 对 基因 进行 通路 和 功能 注释 的 网 站 
工具 ,界面 如 图 8-15 所 示 。 在 网 站 中 输入 一 个 基因 集合 后 ,人 们 能 够 识别 显著 富 集 的 功能 和 
通路 。 改 进 的 Fisher 精 确 检验 被 用 于 通路 的 识别 。 该 工具 提供 了 Biocarta 和 KEGG 通 路 的 可 
视 化 图 ,可 以 对 注释 基因 在 通路 中 进行 表示 。 而 且 基 因 的 各 种 ID 支持 和 转化 功能 非常 强大 。 


aac 


DAVID Bioinformatics Resources 6.7 


Home . Start Analysis | Shortcut to DAVID Tools , Technical Center . Downloads & APIs | Term of Service Why DAVID? About Us 


Shortcut to DAVID Tools Recommending A paper published in Nature Protocols describes step-by-step procedure to use DAVID! 
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图 8-15 DAVID 网 站 界面 


(二 ) 基于 R 的 网 络 分 析 软 件 : iSubpathwayMiner 包 


iSubpathwayMienr ( http: //cran.r—project.org/package= iSubpathway Miner ) 是 基于 RBCL， 
igraph 包 开发 的 专 为 KEGCG 代 谢 通路 和 信和 号 通路 分 析 程 序 包 ,工作 界面 如 图 8-16 所 示 。 该 软 
件 包 含 了 几 十 种 通路 图 重 构 方案 。 多 种 风险 通路 和 子 通 路 识别 方法 ,通路 的 拓扑 分 析 方 法 。 
通路 图 可 以 在 R 中 显示 ,也 可 以 输出 为 cytoscape 等 软件 接受 的 格式 ,或 自动 转 人 KECC 网 站 进 
行 可 视 化 。 
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K Console 


$ pathvayName annComponentRatio annBgRatio pve&lue 
3 Retinol metabolism 29/1000 65/21796 0.000000e+00 
$ics by cytochrome P450 26/1000 71/21796 0.000000&e400 
$lism - cytochrome P450 24/1000 73/21796 7.993606e-15 
$hospholipid metabolism 24/1000 79/21796 5.873080e-14 
$ Fatty acid metabolism 16/1000 42/21796 1.851408e-11 
$d hormone biosynthesis 18/1000 56/21796 2.836807e-11 
$lycerolipid metabolism 16/1000 49/21796 2.749426e-10 
$ Pyrimidine metabolism 22/1000 99/21796 5.635397e-10 
$dative phosphorylation 25/1000 1132/21796 1.388163e-09 
$noleic acid metabolism 12/1000 29/21796 2.051083e-09 
$ Purine metabolism 27/1000 161/21796 5.021268e-09 
$ Tyrosine metabolism 13/1000 41/21796 1.964871e-08 
$bolism ~ other enzymes 14/1000 52/21796 5.786314e-08 
$ Tryptophan metabolism 12/1000 42/21796 2.514240e-07 
$ methionine metabolism 10/1000 36/21796 3.375514&-06 
$ Caffeine metabolism 5/1000 7/21796 3.912984e-06 
$idonic acid metabolism 12/1000 57/21796 8.517456e-06 
$ Steroid biosynthesis 7/1000 18/21796 8.543201e-06 
$ carbon pool by folate 7/1000 18/21796 8.543201e-06 
$ysis / Gluconeogenesis 12/1000 64/21796 2.942795e-05 
$bile acid biosynthesis 6/1000 16/21796 4.948480&e-05 


£ 





图 8-16  iSubpathwayMiner 14%% i 
(=) pathway—express4 4 


pathway—express ( http: //vortex.cs.wayne.edu/projects.htm#Pathway—Express ) 4&5] 4) HT 7J 
法 对 应 的 平台 ,界面 如 图 8-17 所 示 。 该 平台 接收 用 户 输入 的 兴趣 基因 和 量化 的 值 ,如 由 表达 
谱 找 到 的 疾病 差异 基因 和 差异 倍数 ( fold change ) 值 。 然 后 通过 计算 每 个 通路 的 影响 分 析 得 
分 ,最 终 返 回 识 别 风险 通路 的 结果 。 影 响 分 析 方 法 既 考 虑 了 经 典 的 统计 学 分 析 的 通路 得 分 ， 
又 考虑 了 基因 表达 值 定量 的 变化 和 这 些 基因 在 通路 中 的 位 置 对 通路 的 影响 情况 。Draghici 
等 人 认为 基因 在 通路 中 的 位 置 是 重要 的 ,尤其 是 处 于 起 始 位 置 的 基因 。 该 方法 用 于 肺癌 和 
乳腺 癌 的 风险 通路 识别 ,取得 了 非常 好 的 效果 。 
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应 用 实例 : 疾病 代谢 子 通路 识别 、 
网 络 构建 和 分 析 


Section5 Application Example: Identification, Network Construction 


and Analysis of Disease Metabolic Subpathways 
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疾病 的 发 生 和 发 展 往往 与 代谢 通路 的 异常 变化 密切 相关 。 随 着 代谢 通路 网 络 数据 越 来 
越 完 善 , 探 村 各 种 疾病 尤其 是 复 森 疾病 与 代谢 通路 的 内 在 更 精细 的 关联 机 制 更 成 为 后 基因 
时 代 的 一 大 挑 成 。 因 为 疾病 的 发 生 往往 与 代谢 通路 强烈 的 局 部 功能 和 生物 学 过 程 混 乱 密 切 
相关 。 因 此 ,识别 疾病 显 者 相关 的 代谢 子 通路 区 域 ,能 够 更 加 精确 地 定位 疾病 相关 的 代谢 局 
部 功能 区 域 和 模块 。 传 统 上 ,研究 机 构 一 般 利 用 生物 学 实验 技术 来 定位 疾病 相关 的 代谢 子 
通路 。 然 而 ,这 种 精细 的 代谢 子 通路 识别 实验 一 直 以 来 都 是 生物 学 和 医学 领域 的 难点 。 由 
于 通路 目 身 分 子 机 制 的 高 度 复 杂 性 ,使 得 利用 生物 学 实验 方式 进行 代谢 子 通 路 识别 相关 人 研 
究 整 体 进展 十 分 缓慢 , 仪 仅 集中 在 人 研究 个 别 热点 疾病 的 潜在 热点 致 病 代谢 子 通 路 上 。 即 使 
当前 的 技术 能 够 未 一 地 通过 生物 等 实验 进行 第 查 ,识别 如 此 多 的 疾病 与 代谢 子 通路 关系 显 
然 是 一 项 非常 巨大 的 、 耗 时 费力 的 项 目 。 这 使 得 各 种 疾病 与 代谢 子 通 路 全 局 关联 关系 无 法 
清晰 呈现 ,导致 疾病 代谢 相关 分 子 机 制 的 研究 出 现 瓶颈 。 本 节 我 们 将 介绍 两 个 实例 来 演示 
利用 通路 网 路 分 析 技 术 改 善 如 上 问题 的 方案 : 山 使 用 社会 网 络 的 k-clique 方 法 和 利用 通路 绪 
构 信 息 识别 疾病 风险 子 通 路 来 改善 通路 识别 效果 及 提高 通路 识别 精度 ; 构建 各 种 疾病 与 
代谢 子 通路 全 局 关联 网 络 来 系统 分 析 疾 病 通路 机 制 的 案例 分 析 。 





一 、 利 用 通路 结构 信息 识别 疾病 风险 子 通路 》》 


代谢 通路 整体 上 是 一 个 复杂 的 网 络 ,通路 内 几乎 所 有 的 组 分 ( 酶 化合物 等 ) 彼 此 之 间 
通过 数 步 的 级 联 生 化 反应 相关 联 。 一 个 酶 基因 的 表达 变化 (如 编码 该 酶 的 基因 的 突变 ) 可 能 
影响 网 络 内 的 态 一 个 酶 基因 的 变化 。 然 而 ,这 种 影响 有 强 暗 之 分 ,往往 通路 内 彼此 邻接 越 近 
的 酶 之 间 ,相互 影 啊 的 程度 越 大 ,它们 也 更 倾 问 于 具有 相似 的 生物 学 功能 和 行使 相同 的 生物 
学 过 程 。 因 此 , 糊 细 定位 和 识别 疾病 相关 代谢 子 通路 局 部 区 域 意 义 重 大 。 通 路 结构 信息 中 
隐 含 了 大 量 而 又 详尽 的 基因 功能 关联 的 有 效 信息 使 得 结合 通路 结构 信息 来 定位 和 识别 子 通 
路 是 十 分 有 应 用 价值 的 。 本 实例 介绍 使 用 k-clique 方 法 和 利用 通路 结构 信息 ,将 代谢 通路 划 
分 成 子 通路 ,并 利用 超 几 何 检验 方法 对 评估 和 识别 疾病 风险 子 通路 的 案例 。k=-clique 代 谢 子 
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通路 识别 方法 具体 如 下 : 

1. 重 构 代 谢 通路 ,使 之 以 酶 (基因 ) 为 中 心 ” 即 转化 代谢 通路 为 以 酶 为 节点 , 酶 和 酶 之 
间 如 果 共 享 至 少 一 个 代谢 子 ,那么 它们 之 间 连 接 一 条 边 。 如 图 8-18 所 示 。A 图 为 代谢 通路 
的 生化 反应 图 ,经 过 转化 后 将 得 到 酶 为 节点 的 图 , 即 B 图 。 

2. 接 下 来 ,使 用 图 划分 算法 ,将 通路 划分 成 子 通路 (网 络 模块 ) 社会 网 络 的 k-clique 算 
法 是 一 个 理想 的 选择 。 一 个 k-clique 为 图 中 任意 节点 之 间距 离 小 于 等 于 k 的 子 图 (图 8-18C )。 
利用 k-clique 算 法 能 够 将 每 个 通路 图 都 划分 成 子 图 , 子 图 对 应 的 通路 部 分 称 之 为 子 通 路 。 

3. 注释 疾病 差异 基因 到 相应 每 个 代谢 子 通路 中 。 

4. 最 后 利用 超 几 何 富 集 分 析 技 术 识 别 注 释 到 相应 每 个 代谢 子 通 路 的 宣 集 显著 性 。 通 过 
基因 - 酶 对 应 关系 将 基因 集合 注释 到 子 通 路 中 。 对 于 基因 集合 注释 到 的 代谢 子 通 路 ,统计 卷 
入 这 个 子 通 路 的 基因 数量 。 如 果 整 个 人 类 的 基因 组 有 m 个 基因 ,而 这 些 基 因 落 入 子 通 路 的 
基因 数 为 t。 如 果 提 交 的 基因 集合 的 基因 数 为 n, 而 这 些 基 因 注 释 到 子 通路 的 基因 数 为 r。 则 
可 以 通过 超 几何 检验 ( 详 见 第 三 章 内 容 ) 计算 该 子 通路 的 统计 学 显著 性 p 值 。 

我 们 将 k-clique 代 谢 子 通路 识别 方法 应 用 到 肺癌 的 表达 谱 数 据 , 令 人 满意 地 识别 出 与 肺 
瘤 发 生 和 发 展 高 度 相关 的 具有 高 度 生物 学 显著 性 的 通路 。 该 方法 能 够 精细 定位 子 通路 区 域 
的 特点 能 够 有 效 的 细 化 通路 识别 ,并 挖掘 出 通路 整体 异常 不 明显 ,但 局 部 区 域 异 常 显著 的 通 
路 。 社 会 网 络 的 k-clique 方 法 更 强调 节点 距离 还 近 关 系 来 识别 网 络 模 块 的 特点 ,使 之 更 倾向 
于 识别 具有 相似 的 生物 学 功能 和 行使 相同 的 生物 学 过 程 子 通路 模块 。 该 方法 的 实现 提供 在 
iSubpathwayMienr ( http: //cran.r-project.org/package- iSubpathwayMiner ) 包 , 它 提供 了 该 方法 
的 使 用 及 相关 程序 代码 。 


二 、 疾 病 代谢 网 络 构建 和 分 析 >> 


相似 的 疾病 很 可 能 具有 相似 的 发 生发 展 机 制 。 一 个 罕见 癌症 的 发 生机 制 可 能 与 弟 见 瘤 
症 的 发 生机 制 相关 ,例如 相似 代谢 通路 的 异常 。 进 一 步 , 如 果 更 精细 识别 疾病 通路 的 异 第 区 
域 , 即 子 通路 ,并 能 够 构建 所 有 已 知 疾病 与 子 通路 的 全 局 关联 关系 ,那么 对 于 疾病 通路 的 研 
究 意义 重大 。 当 前 的 生物 实验 技术 显然 无 法 逐一 进行 实验 筛 查 。 因 为 识别 如 此 多 的 疾病 与 
代谢 子 通路 关系 是 一 项 非常 巨大 的 、 耗 时 费力 的 项 目 。 这 使 得 各 种 疾病 与 代谢 子 通路 全 局 
关联 关系 无 法 清晰 呈现 ,导致 疾病 代谢 相关 分 子 机 制 的 研究 出 现 瓶 贷 。 本 实例 利用 实例 一 
的 子 通 路 识别 方法 识别 每 个 疾病 的 风险 代谢 子 通 路 ,从 而 构建 所 有 疾病 与 代谢 子 通 的 全 局 
关联 网 络 , 然 后 利用 网 络 分 析 方 法 分 析 网 络 。 构 建 过 程 如 图 8-19 所 示 , 具 体 过 程 如 下 : 

1. 获取 和 处 理 疾病 -基因 信息 从 genetic association database( GAD ) 疾病 基因 数据 库 中 
获取 疾病 分 类 数据 .对 应 的 疾病 基因 数据 ,并 对 这 些 疾病 基因 关系 进行 去 元 余 、 统 一 命名 标 
准 及 存储 格式 .合并 亚 类 疾病 等 数据 整理 处 理工 作 , 得 到 疾病 及 基因 的 统一 关系 。 

2. 疾病 代谢 子 通 路 识别 ”使 用 疾病 基因 关系 ,将 每 种 疾病 的 基因 和 集合 输入 到 k-clique 代 
谢 子 通路 识别 方法 中 ,识别 出 各 种 疾病 对 应 的 风险 代谢 子 通路 区 域 。 

3. 疾病 -代谢 子 通路 全 局 关联 网 络 构 建 ” 整 合 所 有 疾病 与 子 通路 之 间 的 关系 成 为 以 疾 
病 和 子 通 路 为 节点 ,疾病 与 子 通 路 关联 结果 为 边 的 二 分 图 网 络 , 随 后 继承 疾病 和 通路 的 类 别 
等 信息 。 
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e 算 法 得 到 的 一 个 子 通 路 


B 
e 通 路 以 化 合 物 为 中 心 的 表示 方式 ; B 通路 转化 为 以 酶 为 节点 的 表示 方式 ; C 利用 3 一 cliqu 
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获取 和 处 理 疾病 -基因 信息 
GAD 数 据 库 : 原始 有 39910 对 疾病 -基因 关系 
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疾病 -代谢 子 通 
路 全 局 关联 网 络 


图 8-19 疾病 一 子 通路 全 局 关联 网 络 构建 过 程 


通过 上 面 构建 网 络 的 过 程 ,最 终 能 够 构建 疾病 -代谢 子 通 路 全 局 关联 网 络 。 结 果 如 图 8-20A 
所 示 : 方块 契 点 表示 代谢 子 通路 , 圆 表示 疾病 ; 颜色 表示 通路 所 属 类 别 和 疾病 所 属 类 别 。 构 建 
完 疾 病 - 代 谢 子 通 路 全 局 相关 网 络 后 ,我 们 可 以 进行 网 络 的 基本 属性 拓扑 分 析 。 度 分 布 特性 分 
析 是 最 剃 见 的 分 析 , 即 计算 网 络 中 每 个 节点 的 度 ,然后 统计 每 个 度 出 现 的 次 数 或 频率 。 因 为 这 
里 构建 的 网 络 是 二 部 网 络 , 所 以 我 们 分 别 计算 疾病 和 子 通路 节点 的 度 分 布 特性 更 加 合理 和 符 
合生 物 学 本 质 。 如 图 8-20B、C 所 示 , 疾 病 节 点 和 代谢 子 通 路 节点 的 度 分 布 都 大 致 服从 窜 律 分 
布 。 如 对 于 代谢 子 通路 来 说 ,大 部 分 的 子 通路 仅仅 与 少数 疾病 的 发 生 .发展 有 关 。 仅 仅 很 少 的 
一 批 子 通路 与 大 多 数 的 疾病 相关 。 这 些 子 通 路 位 于 图 8-20A 的 网 络 中心 的 大 方块 节点 ,它们 的 
度 如 图 8-20B 的 黑 峰 区 域 所 示 。 进 一 步 我 们 发 现 ,这 些 通路 都 属于 基础 类 代谢 通路 ,这 显示 了 疾 
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病 的 发 生发 展 往往 都 与 基础 类 代谢 的 异常 有 关 。 接 下 来 我 们 利用 网 络 聚 类 方法 识别 网 络 的 疾 
病 -代谢 模块 。 我 们 使 用 双向 层次 聚 类 方法 对 网 络 进行 聚 类 ,来 识别 网 络 的 模块 。 如 图 8-20D 
所 未 , 络 采 显示 网 络 具有 模块 化 的 倾 回 , 且 同 类 疾病 和 代谢 子 通路 倾向 于 在 相同 或 相近 的 模 
块 。 这 显示 了 相似 疾病 倾 问 于 共享 更 多 相同 的 代谢 子 通路 。 进 一 步 将 深入 探讨 潜在 致 病 代 谢 
于 通路 内 部 基因 成 分 与 通路 致 病 性 强 弱 分 析 。 疾 病 - 代 谢 子 通路 全 局 关联 网 络 的 一 大 优势 是 
可 以 从 系统 的 角度 分 析 疾 病 风险 通路 中 酶 基因 的 变化 规律 。 我 们 考察 了 疾病 基因 、 必 要 基因 
(essential genes ) 在 于 通路 中 的 含量 的 变化 。 发 现 可 能 呈现 不 同 的 趋势 。 在 网 络 中 度 与 子 通路 
中 不 同类 型 基因 的 含量 之 间 的 关系 显著 相关 。 当 一 个 代谢 子 通路 中 疾病 基因 含量 较 多 时 ,这 个 
子 通 路 更 倾向 于 与 更 多 类 型 的 疾病 相关 ,如 图 8-20E 所 示 。 然 而 , 当 一 个 代谢 子 通 路 中 必要 基 
办 含量 较 多 时 ,这 个 子 通 路 更 倾 品 于 导致 更 少 的 疾病 发 生 ,如 图 8-20F 所 示 。 这 一 现象 可 能 反映 
了 大 部 分 疾病 的 发 生 不 会 破坏 必要 基因 丰富 的 通路 。 疾 病 - 代 谢 子 通路 全 局 关联 网 络 分 析 可 
以 从 系统 角度 帮助 理解 疾病 与 疾病 疾病 与 代谢 子 通路 .代谢 子 通路 与 代谢 子 通路 之 间 的 关系 。 
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图 8-20 A 疾病 一 子 通路 全 局 关联 网 络 
A. 节点 大 小 表示 节点 的 度 , 即 一 个 疾病 的 发 生 与 多 少 代谢 子 通路 相关 或 一 个 
代谢 子 通路 可 能 导致 多 少 疾 病 ; B. 网 络 中 代谢 子 通路 的 度 分 布 ; C. 网 络 中 疾病 
节点 的 度 分 布 ; D .使 用 双向 聚 类 方法 对 网 络 进行 聚 类 的 结果 ; 元 素 中 橙色 表示 
对 应 的 疾病 和 子 通路 相关 ; 右 侧 的 颜色 条 中 的 颜色 表示 疾病 的 类 , 同 颜 色 的 疾 
病 代 表 他 们 属于 相同 的 疾病 类 ;上 E. 代 谢 子 通路 的 度 与 通路 中 的 疾病 基因 含量 
的 关系 ;F .代谢 子 通 路 的 度 与 子 通路 中 的 必需 基因 含量 的 关系 
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COMPLEX DISEASES 


疾病 是 机 体 在 遗传 和 环境 因素 共同 作用 下 ,机 体 稳 态 失衡 而 发 生 的 异常 生命 过 
程 ,其 表现 为 细胞 、 组 织 或 器 官 层 面 的 损害 作用 。 从 分 子 遗 传 学 角度 看 , 致 病因 素 包 括 
遗传 突变 、DNA 损 伤 和 异常 修复 、 调 控 亲 乱 、 基 因 表 达 或 蛋白 质 功能 异常 等 ,往往 和 环 
境 因 素 直 接 或 间接 地 发 生 作 用 ,从 而 导致 机 体 产 生 一 系列 功能 、 代 谢 和 形态 结构 的 变 
化 ,并 由 此 产生 相应 的 症状 和 体征 。 

通常 我 们 把 疾病 发 生 关 联 的 因素 分 为 内 因 和 外 因 , 内 因 主 要 是 染色 体 异 常 . 基 因 
剪接 异常 、 单 核 苷 酸 的 插入 缺失 变异 、 找 贝 数 变化 等 \、DNA 人 和 修饰 和 核 小 体 修饰 等 遗传 和 
表 观 遗传 变化 ,这 些 变化 可 能 直接 导致 机 体 功 能 先天 异常 ,或 使 机 体 对 外 界 刺 激 的 敏 
感性 发 生变 化 。 外 因 是 诱发 疾病 出 现 或 易 感 的 多 种 外 界 因 素 , 包 括 感 染 、 损 伤 、 环 境 、 
情绪 教育 和 社会 因素 等 , 当 具 有 某 种 遗传 特质 的 人 接触 到 不 相 适 应 的 外 界 因 素 时 , 疾 
病 的 发 病 率 可 能 成 倍增 加 。 随 着 现代 分 子 生物 学 和 医学 研究 的 不 断 发 展 , 尤 其 是 人 类 
基因 组 计划 ( human genome project, HGP ) 的 完成 和 国际 人 类 变异 组 计划 的 开展 ,积累 
了 大 量 的 疾病 分 子 水 平 知识 和 相应 研究 手段 ,使 我 们 不 仅 可 以 深入 到 高 通 量 分 子 遗 传 
学 层面 认识 疾病 本 质 ,而 且 还 可 能 利用 这 些 知识 探索 和 创造 疾病 诊疗 新 方法 、 新 技术 ， 
指导 新 的 药物 靶 标 发 现 。 
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Section 1 Molecular Genetics Character of Complex Diseases 


一 \ 孟 德尔 遗传 病 与 复杂 疾病 >> 


目前 所 知 的 大 部 分 疾病 与 遗传 因素 密切 相关 ,依据 疾病 与 不 同 遗 传 因素 之 间 的 联系 ,可 
以 将 疾病 进行 分 类 : 单 基 因 病 多 基因 病 、 线 粒 体 病 及 染色 体 畸 变 所 引起 的 疾病 。 其 中 , 单 
基因 遗传 疾病 又 称 孟 德尔 遗传 病 , 即 医学 遗传 学 中 通常 研究 的 常 染 色 体 显 性 遗传 病 、 隐 性 遗 
传 病 , 及 性 染色 体 连 锁 的 遗传 病 等 ,由 于 这 些 疾病 一 般 发 病 率 极 低 ( 群 体 发 病 率 低 于 万 分 之 
一 ), 且 有 较 强 的 肢体 致 残 或 致死 率 , 也 称 为 军 见 疾 病 (rare disease )。 而 人 类 和 常见 疾病 (群体 
发 病 率 较 高 ), 如 肿瘤 , 心 脑 血管 疾病 .代谢 系 统 疾病 、 神 经 系统 疾病 等 ,往往 不 是 由 单个 基因 
或 者 单 种 因素 决定 的 ,而 是 涉及 多 种 基因 环境 及 遗传 等 多 方面 因素 ,与 孟 德 尔 遗 传 病 相 比 
在 成 因 上 具有 显著 的 复杂 性 ,因此 称 为 复杂 疾病 ( complex disease )。 

为 使 疾病 研究 具有 系统 性 和 参照 性 ,人 们 很 早 就 开始 疾病 分 类 学 研究。 最 早 的 疾病 
分 类 体系 创建 于 19 志 纪 50 年 代 , 并 在 1893 年 由 国际 统计 人 研究 所 出 版 了 《International List 
of Causes of Death), th 9t D ^E ZH 28 WHO ) 于 1948 年 开始 负责 ICD( international statistic e 
classification of diseases and related health problems ) 的 编写 任务 ,并 加 入 了 发 病原 因 信 息 。 
界 卫 生 大 会 ( WHA ) 于 1967 年 通过 了 世界 卫生 组 织 对 疾病 的 命名 规则 ， ne 
ICD 上 疾病 命名 规则 对 疾病 死亡 率 和 发 病 率 进 行 统 计 。ICD 疾 病 分 类 体系 按照 疾病 特征 将 
其 分 门 别 类 , 现 有 版 本 (ICD-10 ) 包 含 15.5 万 种 编码 。 各 个 国家 分 别 引进 这 种 疾病 分 类 体系 
并 进行 改进 ,中 国 根据 “ICD-10” 颁布 了 《第 二 次 国家 卫生 服务 调查 疾病 分 类 一 编码 表 》 对 
疾病 进行 了 分 类 , 共 19 类 : 山 传染 病 ; @) 寄 生 虫 病 ; 恶性 肿瘤 ; 由 良性 肿瘤 ; QA Ar MEAS 
(营养 和 代谢 疾病 及 免疫 疾病 ); @@ 血 液 和 造血 融 官 疾病 ; (0 精神病 ; (8 神经 系统 疾病 ; OIR 
及 附 器 疾病 ; 四 耳 和 乳 突 疾病 ,四 循 环 系统 疾病 ; @ 呼 吸 系统 疾病 ; @ 消 化 系统 疾病 ; DW 
生殖 系统 疾病 ; 四 妊娠 ; Os Ber PEF AGE; (DBZ AKA FARIA; (BALA. 骨骼 系 
统 和 结缔 组 织 疾 病 ; 1940 DT Al P BE 


二 、 复 杂 疾 病 的 分 子 系统 特征 》》 


与 孟 德 尔 遗 传 病 相 比 ,复杂 疾病 具有 四 个 独特 的 分 子 遗 传 特征 。 第 一 ,复杂 疾病 是 多 基 
因 病 ( ploygenie disorder )。 复 洒 疾 病 的 发 生 往往 与 多 个 基因 的 遗传 或 表达 变化 存在 联系 ,可 
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能 是 分 子 层 面 多 个 基因 损伤 .变异 .失调 而 累积 产生 了 基因 产物 异 稼 (表达 数量 或 重 日 质 编 
构 )\ 代 谢 失调 或 信号 通路 异常 等 ,从 而 导致 机 体 的 宏观 变化 。 第 二 ,复杂 疾病 致 病 基因 具有 
微 效 性 ( minor effect )。 备 德尔 遗传 病 的 发 生 往往 只 与 一 个 或 几 个 基因 的 变化 相关 ,具有 明 
显 的 主 效 基因 ,而 在 复杂 疾病 遗传 遗传 学 研究 中 ,很 难 发 现 一 个 或 几 个 具有 明显 致 病 作用 的 
基因 ,每 个 基因 对 于 疾病 的 发 生 均 具 有 较为 温和 的 作用 效果 ,疾病 的 发 生 是 一 个 从 量变 到 质 
变 的 过 程 。 第 三 ,复杂 疾病 具有 遗传 异 质 性 ( heterogeneity ) 特征 。 在 临床 上 ,遗传 异 质 性 是 
指 不 同 的 成 因 可 能 导致 相同 的 临床 症状 ,与 此 类 比 , 在 分 子 遗 传 学 层面 ,复杂 疾病 的 异 质 性 
指 的 是 分 子 层 面 的 某 些 并 不 完全 相同 的 变化 累积 可 能 导致 同一 个 疾病 的 发 生 , 这 与 人 群 种 
族 差异 .基因 功能 关联 性 、 环 境 因 素 刺 激 等 密切 相关 。 第 四 ,复杂 疾病 相关 基因 存在 上 位 效 
WW epistasis ) 或 相互 作用 。 复 杂 疾 病 的 发 生 与 众多 基因 相关 ,但 这 些 基 因 之 间 并 不 是 孤立 
发 生 作 用 的 ,而 存在 紧密 的 调控 或 互 作 关系 ,这 种 关系 可 以 将 作为 启动 点 的 几 个 基因 的 作用 
放大 到 某 一 生物 学 过 程 或 生物 通路 层面 ,将 分 子 异常 引入 到 宏观 机 体 表现 。 复 杂 疾 病 的 分 
子 遗传 特征 决定 了 其 病因 学 研究 过 程 的 艰巨 性 。 随 着 基因 表达 检测 技术 、SNP 检 测 拉 术 、 重 
白质 检测 技术 、 表 观 遗 传 检 测 技术 等 高 通 量 分 子 标记 检测 方法 的 迅速 发 展 , 人 们 已 经 开始 着 
眼 于 基因 组 范围 系统 地 研究 复杂 疾病 的 发 生 过 程 ,从 这 些 方面 和 人手 开 发 快速 有 效 的 生物 信 
息 学 分 析 工 具 和 方法 具有 重要 的 意义 。 

遗传 因素 之 外 ,环境 因素 对 于 复杂 疾病 的 形成 有 着 非常 重要 的 作用 。 据 世界 卫生 组 织 
报告 ,全球 超过 20% 的 疾病 是 与 环境 暴露 直接 关联 的 。 每 年 约 有 1300 万 人 死亡 归 因 于 环境 
的 不 适应 性 。 在 人 类 分 布 最 不 发 达 地 区 , 近 三 分 之 一 疾病 可 以 归 因 于 环境 因素 。 同 时 ,报告 
还 指出 ,在 造成 人 类 死亡 率 最 高 的 几 种 疾病 中 (如 心血 管 疾病 .呼吸 系统 炎症 总 钙 、 慢 性 阻 
塞 性 肺病 等 ),85% 以 上 的 疾病 受 环境 因素 影响 。 环 境 导 致 人 类 疾病 的 发 生 主要 体现 在 两 个 
方面 。 首 先 , 某 些 环境 条 件 可 能 会 诱导 基因 发 生 突变 或 表达 变化 引发 疾病 。 比 如 净 基 因 在 
通常 情况 下 处 于 抑制 状态 , 当 细 胞 被 紫外 线 照 射 或 者 受到 异常 环境 因素 刺激 , 交 基 因 就 可 能 
从 原来 的 抑制 状态 变 成 激活 状态 ,进而 使 得 正常 细胞 发 生 癌变 转化 为 癌 细 胞 。 其 次 ,人 类 个 
体 本 身 的 遗传 差异 在 一 定 程度 上 决定 了 人 们 对 环境 的 适应 性 差异 , 即 基因 型 差异 影响 到 对 
环境 改变 的 敏感 性 。 越 来 越 多 的 实验 证 明基 因 与 环境 之 间 的 相互 作用 在 复杂 疾病 的 发 生 或 
发 展 过 程 中 起 着 关键 性 作用 ,它们 之 间 的 相互 作用 是 极其 复杂 和 非 线性 的 。 一 个 基因 在 不 
同 的 环境 中 会 产生 不 同 甚至 是 完全 相反 的 表 型 ,因此 单纯 从 遗传 角度 去 人 研究 疾病 是 不 足以 
全 面 了 解 复杂 疾病 的 发 生 、 发 展 过 程 的 。 为 了 全 面 、 系 统 地 研究 环境 对 于 疾病 的 影响 ,科学 
家 们 开展 了 环境 基因 组 计划 ( environment genome project, EGP ), 识 别 哪些 人 类 基因 能 增加 对 
环境 相关 疾病 的 个 体 易 感性 。 





三 、 重 要 的 复杂 疾病 数据 库 >> 


(一 ) 人 类 和 孟 德尔 遗传 在 线 (OMIM ) 


MIM( Mendelian inheritance in man ) 是 一 个 将 遗传 病 进 行 分 类 ,并 与 人 类 基因 建立 相互 
联系 的 疾病 研究 数据 库 。 它 的 在 线 版 本 是 人 类 备 德 尔 遗 传 在 线 (OMIM http: //www.ncbi. 
nlm.nih.gov/omim )。OMIM 是 目前 最 权威 的 人 类 遗传 疾病 数据 库 , 为 临床 医生 和 科研 人 员 
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提供 了 权威 可 靠 的 遗传 疾病 、 表 型 相关 基因 或 染色 体位 点 信息 ,有 着 广泛 的 应 用 领域 ,对 于 
临床 医生 和 科研 人 员 来 说 是 一 种 重要 的 网 络 资源 。 例 如 ,临床 医生 可 以 将 患者 的 临床 表 型 
输入 到 数据 库 查 找 相 关 的 疾病 信息 ,又 可 以 针对 某 些 感 兴趣 的 基因 或 者 疾病 进行 搜索 。 在 
OMIM 中 搜索 基因 和 疾病 时 ,又 可 以 同时 查询 到 基因 和 疾病 相关 的 信息 如 基因 的 序列 ,染色 
体位 置 ,以 及 疾病 相关 的 参考 文献 等 。OMIM 提 供 了 友好 的 使 用 界面 ,用 户 可 以 通过 MIM 号 
(了 有 D)\ 疾 病名 、 基 因 名 或 者 疾病 的 一 些 表征 进 行 搜索 (图 9-1 )。 











e Enter one or more search terms 
e Use Limits to restrict your search by search field, chromosome, and other criteria 
e Use Index to browse terms found in OMIM records 

e Use History to retrieve records from previous searches, or to combine searches 


| OMIM * - Online Mendelian Inheritance in Man * 


MIM Mol 


Welcome to OMIM ® , Online Mendelian Inheritance in Man® . OMIM is a comprehensive, authoritative, and timely compendium of human 
genes and genetic phenotypes. The full-text, referenced overviews in OMIM contain information on all known mendelian disorders and over 
12,000 genes OMIM focuses on the relationship between phenotype and genotype. It is updated daily, and the entnes contain copious links 
to other genetics resources 

This database was mutated in the early 1960s by Dr Victor A McKusick as a catalog of mendelian traits and disorders, entitled Mendelian 
Inheritance mn Man (MIM). Twelve book editions of MIM were published between 1966 and 1998. The online version, OMIM, was created 
m 1985 by a collaboration between the National Library of Medicine and the Wilkam H. Welch Medical Library at Johns Hopkins. It was 
made generally available on the internet starting in 1987. In 1995, OMIM was developed for the World Wide Web by NCBI, the National 
Center for Biotechnology Information 


OMIM is authored and edited at the McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, under 
the direction of Dr. Ada Hamosh 


图 9-1 OMIM 在 线 搜索 界面 
在 输入 搜索 关键 词 并 运行 后 ,网 站 会 在 搜索 结果 中 列 出 与 搜索 记录 最 相近 的 20 个 记录 ， 


读者 可 依照 个 人 习惯 更 改 显 示 记 录 的 数目 。 在 OMIM 数 据 库 中 ,每 一 个 记录 都 会 有 唯一 的 6 
位 数 编 码 , 这 种 编码 可 以 表示 这 种 遗传 病 是 常 染 色 体 显 性 ( 隐 性 ) 遗传 . X 连 锁 还 是 Y 连 锁 等 ， 


详 见 表 9-1。 
表 9-1 OMIM 编 码 及 其 代表 的 数据 类 型 
OMIM 编 号 范围 遗传 方式 
100000-199999 常 染色 体 显 性 遗传 或 表 型 (于 1994 年 5 月 15 日 创建 ) 
200000-299999 常 染色 体 隐 性 遗传 或 表 型 (于 1994 年 5 月 15 日 创建 ) 
300000-399999 X 连 锁 位 点 或 表 型 
400000-499999 Y 连 锁 位 点 或 表 型 
500000—599999 线粒体 位 点 或 表 型 
600000- 染色 体位 点 或 表 型 (于 1994 年 5 月 15 日 创建 ) 


在 大 部 分 OMIM 编 码 前 会 有 一 些 特殊 的 符号 来 分 别 表示 不 同 的 含义 。 其 中 ,“*” 表 示 本 
条 目 为 东 个 基因 的 系统 注释 ; # ”表示 本 条 目 为 某 个 表 型 的 系统 说 明 ; +” 表示 本 条 目 代 表 
基因 型 与 表 型 之 间 的 关系 ;"%” 表 示 某 个 未 知 分 子 机 制 的 疾病 表 型 或 相关 位 点 ; 条 目前 无 
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任何 标记 表示 此 疾病 表 型 可 能 存在 遗传 相关 位 点 ,但 未 经 证 实 ;”“ ”表示 该 记录 已 不 存在 或 
者 被 其 他 记录 所 代替 。 此 外 , OMIM 数 据 库 还 提供 批量 下 载 ,用 户 可 以 通过 FTP 登 录 方 式 下 
载 OMIM 中 的 全 部 数据 ( ftp: //ftp.ncbi.nih.gov/repository/OMIM ), 包 括 OMIM 全 部 文本 信息 文件 
( omim.txt.Z ), OMIM 中 收录 的 基因 ( genemap )、 基 因 说 明文 件 ( genemap.key ), 以 及 疾病 与 基因 
对 应 关系 文件 ( morbidmap )。 

另外 , OMIM 还 提供 genemap 和 morbidmap 的 网 络 查 询 形 式 。 这 里 以 Alzheimer” s Disease 
CAD ) 为 例 ,简单 介绍 一 下 OMIM 数 据 库 的 使 用 。 我 们 在 OMIM 查 询 框 中 输入 “Alzheimer”s 
Disease” 就 可 以 在 OMIM 上 得 到 这 种 疾病 相关 信息 。 读 者 也 可 以 输入 该 疾病 的 简写 形式 AD， 
疾病 表征 ( 如 Senile Dementia ) 或 者 与 该 疾病 相关 的 基因 名 (4POFE4 ), 查 看 检索 结果 ( 因 关 键 
词 影响 ,结果 上 略 有 差别 )。 

其 中 每 一 个 记录 表示 在 OMIM 中 与 查询 信息 相关 的 内 容 。 男 外 ,我 们 可 以 在 “Display” 
中 选择 查询 结果 的 显示 方式 、 条 目 数 。 选 择 任意 一 条 记录 都 包含 了 如 下 信息 : MIM 号 (ID )、 
查询 疾病 的 名 称 (别名 ), 与 疾病 相关 遗传 信息 的 一 般 性 描述 ,有 文献 支持 的 临床 表征 ,生化 
特征 ,发 病 机 制 ,遗传 性 及 诊断 ,文献 支持 的 基因 信息 ,分 子 遗 传 学 、 群 体 遗 传 学 等 文献 文 持 
| 材料 。 最 后 ,提供 了 大 部 分 的 人 研究 参考 文献 。 选 择 页 面 上 的 Gene map locus 后 面 的 基因 区 段 ， 
会 显示 出 该 区 段 在 染色 体 图 的 详细 信息 。 主 要 的 内 容 包 括 如 下 几 方 面 的 图 信息 : 基因 序列 
信息 、 表 型 信息 (包括 数量 性 状 位 点 )、 OMIM 疾 病 记 录 细胞 遗传 上 的 基因 分 布 等 详细 信息 。 
其 中 部 分 数据 可 以 下 载 或 查看 。 


(二 ) 遗传 关联 数据 库 (genetic association database, GAD) 


GAD 是 由 美国 国立 卫生 人 研究 院 ( national institutes of health, NIH ) 的 Kevin Becker 及 其 同 
事 于 2004 年 开发 维护 的 数据 库 ,该 数据 库 中 存储 了 大 量 的 人 类 复杂 疾病 相关 的 基因 及 多 态 
性 信息 ,为 研究 人 员 从 大 量 的 多 态 性 数据 中 快速 地 识别 出 疾病 相关 的 多 态 提 供 了 方便 。 数 
据 库 中 的 信息 来 源 于 对 目前 已 有 的 关联 分 析 结 果 的 搜集 和 整理 ,这 些 信 息 是 以 基因 为 核心 
的 ,也 就 是 说 ,数据 库 中 的 每 条 记录 对 应 的 是 一 个 基因 或 者 染色 体位 点 ,如 果 我 们 要 人 研究 茶 
一 特定 疾病 6 个 相关 的 基因 ,那么 我 们 会 在 这 个 数据 库 中 得 到 6 条 相应 的 记录 。 该 数据 库 允 
许 所 有 用 户 查 看 提交 记录 。 

可 以 通过 网 址 http: //geneticassociationdb.nih.gov/ 访问 该 数据 库 。 用 户 可 以 在 线 查询 革 
种 特定 遗传 病 相关 的 基因 或 某 个 基因 相关 的 疾病 的 信息 ,也 可 以 在 免费 注册 后 对 整个 数据 
库 中 的 数据 进行 下 载 。 截 至 目前 ,数据 库 中 的 记录 数 已 经 达到 了 39 930 条 。 

GAD 数 据 库 主 要 包含 三 部 分 功能 (位 于 GAD 主 页 左 侧 ): 数据 视图 部 分 ; 数据 查询 部 分 ; 
数据 资源 部 分 。 数 据 视 图 部 分 主要 是 为 用 户 从 疾病 角度 、 基 因 和 角度 、SNP 和 角度 以 及 基因 与 环 
境 互 作 的 角度 来 查询 疾病 和 基因 之 间 的 关联 关系 。 数 据 查询 部 分 提供 了 简单 搜索 、 高 级 搜 
这 批量 搜索 以 及 通过 基因 来 查看 所 有 涉及 的 疾病 的 种 类 和 已 确实 被 证 明基 因 和 疾病 相关 
的 记录 。 数 据 资 源 部 分 包括 用 户 提交 疾病 基因 关联 记录 ,对 CAD 数 据 库 的 意见 以 及 数据 下 

首先 ,用 户 可 以 通过 数据 库 页 面 的 左 侧 的 相关 链接 选择 不 同 的 角度 对 数据 表 进 行 查询 ， 
GAD 会 根据 用 户 的 查询 从 数据 表 中 选择 相应 的 字段 返回 结果 页 面 ,并 且 每 条 记录 的 第 一 个 
字段 都 有 相应 的 详细 的 链接 通过 该 链接 ,用 户 可 以 得 到 数据 表 中 存储 的 与 查询 相关 的 全 部 
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信息 。 该 数据 库 中 存储 的 基因 (多 态 ) 与 疾病 ( 表 型 ) 间 的 关系 有 一 部 分 是 通过 关联 分 析 得 
到 的 ,因此 数据 表 中 不 仅 包含 显著 与 疾病 发 生 关 联 的 基因 的 记录 。 同 时 也 包含 了 关联 关系 
不 显著 的 记录 ,数据 表 中 的 字段 “Association ? Y/N” 表 明了 具体 的 关系 ,该 字段 有 三 种 取 值 : 
Y、N 和 空 ,分 别 表示 该 记录 的 相应 研究 中 的 基因 与 疾病 显著 关联 不 显著 关联 以 及 未 明确 是 
否 关联 。 以 疾病 角度 查询 ,我 们 可 以 得 到 特定 疾病 相关 的 基因 Symbol ,染色体 区 段 、 基 因 组 
定位 、 对 应 的 OMIM ID .基因 与 疾病 是 否 关 联 以 及 关联 显著 性 水 平 的 pz 值 和 相应 参考 文献 的 
塞 息 , 男 外 GAD 还 给 出 了 该 疾病 所 属 的 疾病 类 信息 以 及 与 其 他 数据 库 的 链接 ; 以 基因 角度 查 
询 , 我 们 可 以 得 到 基因 相关 的 疾病 表 型 描述 、 所 属 疾 病 类 以 及 关联 显著 水 平和 对 应 参考 文献 
的 信息 ,同时 还 可 以 得 到 该 基因 在 其 他 一 级 基因 数据 库 中 的 ID .名称 、 定 位 等 基本 信息 以 及 
与 其 他 数据 库 的 链接 ; 男 外 ,用 户 还 可 以 从 染色 体 角 度 出 发 ,或 者 通过 参考 文献 环境 因素 等 
方面 对 数据 表 进 行 在 线 查 询 , 当然 ,我 们 也 可 以 选择 “All” 同 时 从 多 个 角度 对 数据 库 中 的 相 
关 信息 进行 查询 。 

其 次 ,用 户 可 以 选择 “Simple Search” ,利用 关键 字 实 现 对 数据 库 中 相关 记录 的 简单 查 
ifj, TE "Simple Search” 中 ,用户 只 需要 提交 以 空格 分 隅 的 关键 字 ,并 选 出 查询 内 容 的 种 类 
( Disease, Gene View, CH-SNP-HapMap 和 Reference )。 还 可 以 选择 “Advanced Search” 增 加 
查询 限定 条 件 进 行 数据 记 录 的 高 级 搜索 ,包括 更 新 时 间 ,与 疾病 是 否 关联 ,疾病 表 型 ,疾病 种 
类 等 。 如 果 某 些 限 定 条 件 选择 空 日 则 会 列 出 相关 条 件 下 的 所 有 记录 。 

GAD 还 支持 对 基因 的 批量 查询 ,用 户 可 以 把 小 于 300 个 基因 以 HUGO 中 的 基因 Symbol， 
UNIGENE ID ,或 ENTREZ GENE ID 的 形式 形成 一 个 基因 列表 ,并 通过 该 列表 实现 对 GAD 中 信 
息 的 批量 查询 。 这 样 , GAD 就 可 以 分 析 高 通 量 实验 ( microarray、cDNA sequencing, SAGESS ) 
得 到 的 基因 与 人 类 疾病 之 间 的 关系 。 

选择 “Browser Al ”链接 可 以 得 到 结果 ,返回 了 数据 库 中 的 所 有 基因 和 与 各 类 疾病 间 
的 关系 ,如 第 一 条 记录 HESX1 基 因 , 它 在 数据 库 中 共存 在 3 条 相关 记录 ,其 中 与 代谢 类 疾病 
(MET ) 相关 的 记录 有 1 条 ,与 其 他 类 疾病 相关 的 记录 有 2 条 。 

用 户 还 可 以 选择 “Positive Only” 以 沛 选 得 到 疾病 与 基因 间 存 在 显著 关联 的 记录 。 

同时 ,用 户 还 可 以 通过 “Add Record” 页 面 实 现 癌 数 据 库 中 提交 记录 ; 通过 “Download” 
页 面 实 现 对 数据 库 中 数据 的 下 载 。 

目前 该 数据 库 已 经 得 到 了 人 研究 人 员 的 广泛 应 用 ,例如 ,2009 年 Liu 等 人 发 表 在 BMC 
Bioinformatics2& 志 上 的 X Bt "The ‘etiome’ : identification and clustering of human disease 
etiological factors” 中 ,作者 为 了 研究 影响 疾病 的 因素 从 CAD 数 据 库 中 获取 了 与 1034 种 复杂 
疾病 相关 的 1100 个 基因 的 相关 数据 ; 2008 年 Yang 等 人 发 表 于 BMC Bioinformatics 杂 志 上 的 
X. 3€ “An integrated database-pipeline system for studying single nucleotide polymorphisms and 
diseases” 为 了 得 到 一 个 可 用 于 研究 遗传 变异 与 疾病 间 关 系 ,也 从 GAD 中 提取 了 疾病 相关 信 
县 进行 数据 整合 。 


(=) 癌症 基因 组 剖析 计划 数据 库 (CGAP) 


癌 基 因 组 剖析 计划 ( cancer genome anatomy project, CGAP ), Z& — Jii EH 3 Es J&s JiE WA Pr 
( national cancer institute, NCI ) 于 1996 年 发 起 并 建立 和 主持 的 交叉 学 科 计划 。 其 目的 在 于 产 
生 用 于 解码 肿瘤 细胞 的 分 子 结构 所 需 的 信息 ,并 创建 一 系列 技术 工具 以 挖掘 与 肿瘤 相关 的 
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基因 、 重 日 及 其 他 的 生物 标记 ,最 终 为 癌症 的 研究 提供 信息 资源 和 技术 方法 。CGAP 的 总 体 
目标 是 检测 正常 、 瘤 前 病变 以 及 癌 细 胞 的 基因 表达 谱 ,使 得 研究 人 员 可 以 借助 于 这 些 表达 数 
据 描述 出 肿瘤 形成 过 程 中 的 一 系列 细胞 分 子 特征 ,最终 改善 对 患者 的 检测 ,诊断 和 治疗 。 该 
计划 通过 与 全 世界 范围 内 科学 家 的 合作 来 增强 其 信息 的 科学 性 和 完整 性 ,为 癌症 相关 科研 
人 员 提 供 方 便 。 

CGAP 被 分 为 五 个 部 分 ,每 一 个 都 有 它 自己 的 目的 \ 信 息 学 工具 和 资源 。 人 类 肿瘤 基因 
索引 (the human tumor gene index, hTGI ) 指明 了 在 人 类 肿瘤 发 生 过 程 中 的 基因 表达 ; 分 子 表 
达 谱 ( molecular profiling, MP ) 从 分 子 水 平分 析 人 类 组 织 样本 的 概念 ; 癌症 染色 体 变 异 计划 
( the cancer chromosome aberration project, CCAP ) 描述 了 同 恶 性 转移 相关 的 染色 体 变 异 ; 遗 
传 注解 索引 (the genetic annotation index, GAI ) 指明 和 描绘 了 同 癌症 相关 的 多 态 性 ; 小 鼠 肿 
瘤 基 因 索 引 ( the mouse tumor gene index, mTGI ) 确定 了 在 小 鼠 肿瘤 发 生 过 程 中 的 基因 表达 。 

用 户 可 以 通过 该 网 址 http: //cgap.nci.nih.gov/ 对 CGAP 的 网 站 进行 访问 ,并 通过 左 侧 导 航 
栏 CCAP Info 中 的 相关 链接 了 解 更 多 有 关 该 计划 的 更 为 详细 信息 。 该 网 站 提供 了 七 个 相关 
模块 用 以 对 所 有 CGAP 中 包含 的 数据 .生物 信息 学 分 析 工 具 以 及 生物 学 相关 资源 的 查询 和 获 
取 , 依 助 于 这 些 模块 用 户 可 以 实现 对 生物 学 问题 的 计算 机 模拟 ,从 而 快速 地 获得 问题 的 解决 
方案 。 进 入 “Genes ”的 标签 页 ,可 以 得 到 页 面 , 该 页 面 中 提供 了 多 种 可 用 于 对 瘤 症 相关 基因 
进行 查询 和 分 析 的 工具 ,如 利用 “Batch Gene Finder” 可 以 实现 对 多 个 基因 的 批量 查询 ,利用 
"Nucleotide BLAST” 工具 可 以 找 出 给 定 核 并 酸 序列 中 最 有 可 能 的 候选 基因 等 ,对 于 查询 到 的 
每 个 基因 , CGAP 都 会 提供 一 个 包含 NCBI 以 及 NCI 的 多 个 子 库 中 有 关 该 基因 的 描述 信息 在 内 
HY “Gene Info” W Ho 

下 面 我 们 以 使 用 Cene Finder 工 具 为 例 人 简要 介绍 如 何在 CGAP 中 实现 对 癌症 相关 基因 的 
查询 ,并 对 查询 结果 进行 何 要 解释 。 

Gene Finder 对 应 的 标签 ,用 户 可 以 利用 该 工具 通过 输入 某 个 特定 基因 的 Gene Symbol、 
GenBank 数 据 库 中 的 accession number、UniGene 数 据 库 中 的 cluster ID 或 者 Entrez Gene ID 来 
查询 基因 的 相关 信息 。 也 可 以 通过 限定 组 织 、 功 能 ,定位 等 方面 的 条 件 来 实现 对 相关 基 
因 的 查询 。 例 如 要 查询 与 人 类 的 结肠 ( colon ) 组 织 相 关 的 基因 ,我 们 首先 应 在 选择 物种 
( Select organism ) 这 一 下 拉 列 表 中 选择 “Homo sapiens”( 目 前 CGAP 只 支持 对 人 类 和 小 鼠 Mus 
musculus 两 个 物种 的 查询 ), 并 在 Tissue Type 对 应 的 下 拉 列 表 中 选择 Colon ,提交 查询 后 可 返回 
一 个 包含 所 有 结果 的 Gene List 页 面 ,对 于 感 兴趣 的 基因 ,我 们 还 可 以 通过 页 面 中 对 应 记录 的 
最 后 一 栏 “Gene Info” 链接 去 获取 有 关 该 基因 的 更 为 详细 的 信息 。 对 于 结果 列表 中 的 第 一 
个 基因 A1CF, CGAP 中 包含 的 有 关 该 基因 的 全 部 信息 ,其 中 包含 A1CF 在 其 他 数据 库 中 的 ID 
名 称 ,并 提供 其 他 数据 库 对 该 基因 的 描述 链接 ,同时 还 包含 了 A1CF 相 关 的 序列 、 表 达 、 细 胞 
遗传 学 定位 ,染色体 定位 对 应 蛋白 、 同 源 物 以 及 相关 的 GO 注释 等 多 方面 的 信息 。 

CGAP 中 还 包含 有 染色 体 ( Chromosomes ), 2H 2H ( Tissues )、SAGE 精 灵 (SAGE Genie )、 通 
路 ( Pathways )、 工 具 ( Tools ) MIRNA FEEC RNAi ) 六 个 模块 。 与 Genes 模 块 类 似 , 每 个 模块 都 
提供 了 很 多 相关 的 查询 分 析 工 具 , 可 支持 对 CGAP 中 包含 的 染色 体 畸 变 、 表 达 数 据 、 蛋 白 复 合 
物 .生物 学 通路 等 信息 在 内 的 多 方面 内 容 进行 搜索 ,并 可 以 根据 查询 得 到 的 结果 做 进一步 更 
深入 的 分 析 研 究 。 特 别 是 RNAi 模 块 , 其 中 收录 了 部 向 癌症 相关 基因 的 RNA 干 扰 结构 ,并 包 
含有 已 经 证 实 的 靶 癌 癌 基 因 的 短发 卡 RNA( short hairpin RNA, shRNA )。 
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另外 , CGAP 还 允许 用 户 对 其 中 的 数据 资源 进行 下 载 ,在 CGAP 主 页 左 侧 导航 栏 中 包含 有 
CGAP Data 项 ,该 项 中 的 内 容 Download 就 是 数据 下 载 页 面 的 链接 , 下载 页 面包 含 了 人 和 小 鼠 
两 个 物种 的 基因 注释 基因 表达 以 及 相关 的 一 些 文库 中 的 数据 。 

CGAP 计 划 还 有 另外 一 个 目标 ,就 是 建立 一 套 完 整 的 基因 及 其 变异 目录 ,这 些 目录 不 仅 
有 利于 评价 癌症 的 危险 程度 ,而 且 可 以 根据 遗传 变异 确定 预防 或 治疗 策略 ,最 终 根据 分 子 
特征 达到 治疗 的 目的 。 目 前 CGAP 建 立 的 注释 基因 索引 包括 利用 表达 序列 标签 ( Expressed 
Sequence Tags, EST ) 及 基因 注释 等 途径 建立 的 人 和 小 鼠 的 肿瘤 基因 索引 和 用 于 区 分 鉴定 与 
肿瘤 有 关 的 基因 的 遗传 变异 的 注释 索引 。CGAP 还 建立 了 许多 cDNA 文库 ,不 仅 包括 有 全 瘤 
组 织 文 库 , 也 包括 癌症 发 展 过 程 中 不 同 阶段 的 细胞 cDNA 文库 。 同 时 CCGAP 也 提供 了 诸多 资 
源 如 克隆 、BAC 及 技术 方法 和 检索 工具 等 ,为 肿瘤 研究 提供 了 一 个 多 学 科 的 综合 平台 。 

CCGAP 列 涵 了 大 量 有 用 的 信息 ,目前 ,已 有 许多 科研 工作 者 成 功 地 利用 这 些 信 息 实现 了 
对 肿瘤 的 研究 ,如 Loging 等 用 数据 库 及 快速 表达 筛选 方法 ,通过 CCAP 鉴 定 胶 质 瘤 潜在 的 肿瘤 
标志 和 肿瘤 抗原 ,获得 了 有 意义 的 结果 。 
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Section 2 Genome Variations and Complex Disease Mapping 


一 、 变 异 组 学 与 人 类 疾病 >) 


人 类 疾病 的 发 生 是 多 种 因 系 共同 作用 的 结果 。 绝 大 多 数 津 见 疾病 ,如 糖尿 病 、 净 症 、 心 


脏 病 、 精 神 性 疾病 等 具有 非 第 强 的 家 族 聚 集 特征 ,表明 遗传 因 系 在 疾病 形成 中 有 重要 作用 ); 


而 同一 家 族 菏 些 成 员 发 病 、 为 一 些 成 员 不 发 病 , 以 及 同一 种 疾病 在 不 同 个 体 中 具有 不 同 的 严 
重 程 度 和 表现 症状 ,这 些 又 体现 了 常见 疾病 的 多 因 系 特征 。 事 实 上 , 现 有 的 人 研究 提供 了 大 量 
的 证 据 显 示 常 见 疾 病 遗 传 上 的 复杂 性 ,认为 常见 疾病 是 众多 基因 共同 作用 的 结果 ,而 且 人 与 
人 之 加 在 疾病 发 生 中 的 差异 很 大 程度 上 可 以 通过 遗传 变异 来 解释 ,并 在 此 基础 上 提出 着 名 
AY "d$ LES V ULAR Se” 假说， 

我 们 知道 ,任意 两 个 不 相关 个 体 的 DNA 序 列 有 99.8% 是 一 致 的 ,而 剩 下 的 0.2% 由 于 包含 
了 遗传 上 的 差异 因 系 ,造成 人 们 不 同 的 生理 表 型 锥 患 疾 病 的 风险 及 不 同 的 药物 反应 ,这 些 
差异 在 人 类 多 样 性 形成 中 也 具有 同等 重要 的 意义 。 这 0.2% 的 差异 在 基因 组 序列 中 具有 不 
同 的 类 型 和 作用 形式 。 其 中 ,不 同 个 体 DNA 序 列 上 的 单个 碱 基 的 差异 , 称 作 单 核 甘酸 多 态 
性 ( single nucleotide polymorphisms, SNPs ,图 9-2A ), 例 如 , 某 些 人 的 染色 体 上 某 个 位 置 的 碱 
基 是 A, 而 男 一 些 人 的 染色 体 的 相同 位 置 上 的 碱 基 则 是 6G, 而 同一 位 置 上 的 每 个 碱 基 类 型 叫 
做 一 个 等 位 (allele ), 除 性 染色 体外 ,每 个 人 体内 的 染色 体 都 有 两 份 , 即 我 们 第 说 的 同 源 染色 
体 , 一 对 同 源 染 色 体 上 的 两 个 等 位 的 组 合 叫 做 基因 型 ( genotype, 图 9-2B )。 对 上 述 SNP 位 点 
而 言 ,一 个 人 的 基因 型 有 三 种 可 能 性 ,分 别 是 AA, AG 或 CG。 而 检定 基因 型 的 过 程 , 称 作 基 因 
分 型 ( genotyping )。 由 于 SNP 在 人 群 中 具有 最 大 的 数量 和 最 广泛 的 分 布 , 且 易 于 分 型 ,已 经 成 
为 现代 遗传 变异 与 复杂 性 状 研究 中 最 重要 的 研究 对 象 , 也 是 生物 医学 .农业 畜牧 业 研 究 中 
非常 重要 的 研究 工具 。 

如 果 将 世界 上 所 有 人 看 作 一 个 群体 ,那么 全 人 类 中 大 约 存在 一 千 万 个 SNP 位 点 ,这 些 
SNP 绝 大 多 数 呈 现 二 态 性 ,并 且 具 有 不 同 的 等 位 频率 ,我 们 将 在 某 个 研究 群体 中 出 现 较 少 的 
等 位 频率 称 作 最 小 等 位 频率 ( minor allele frequency, MAF ), 并 以 此 将 SNP 划 分 为 第 见 和 罕见 
两 类 ,一 般 说 来 ,常见 的 SNP 最 小 等 位 频率 应 当 大 于 5%( 也 有 文献 定 为 1% ), 具有 比较 广泛 的 
群体 分 布 ,与 个 体 表 型 差异 和 疾病 易 感 有 关 ; 而 罕见 的 SNP 往 往 是 某 些 单 基 因 病 或 偶发 疾病 
的 承载 者 。 由 于 减 数 分 裂 过 程 中 ,染色体 发 生 重 组 的 位 置 具有 选择 性 ,染色 体 上 距离 越 近 的 
SNP 越 倾向 于 以 一 个 整体 遗传 给 后 代 , 这 样 ,我 们 把 位 于 染色 体 上 某 一 区 域 的 一 组 相互 关联 
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的 SNP 称 作 一 个 连锁 块 ( linkage block ), 这 是 我 们 将 SNP 作 为 一 种 重要 的 遗传 标记 进行 复杂 


性 状 和 复杂 疾病 定位 的 分 子 基 础 。 
除了 从 频率 的 角度 对 SNP 进 行 划 分 ,并 在 此 基础 上 进行 基于 统计 思想 的 遗传 定位 分 析 





A SNP SNP SNP SNP 
y Y Y 
染色 体 1 AACACGCCA....TTCGGGGTC.... AGTCGACCOG.... 
BER 2 AACACGCOCAXAK,...TTCGNAGOTJOC...» AGTCA ACC Ge wcw 
Bak AACATGOCCA,..«TTOCGGGOTC,... AGTCA ACC 6... 
ROK 4 AACACGCCA....TTCGGGGTC.... AGTCGACCOCG.... 
B 
基因 型 个 体 1 AACACIGCCA....TTCGGIGGTC.... AGTCIGACCG.... 
AACATCIG CCE A..ccx tt 1 GGIAIGGT Caucus AGT CIA IAC CG. «es 
个 体 2 AACAITIGCCA....TT CGIGIGGTC.... AGTCAIACCG.... 
AACACIGCCA....TTCGGIGGTC.... AGTCGACCG.... 
( CC/TC/TI ) (GAIGG/\ ^ ) ( GAIAGIA A. ) 
m A eee 
CTCAAAGTACGGTTCAGGCA 
TTGIATTGICGCAACAIGITAATA 
CCCGATCTGTGATACTGGTG 
T CGIAIT T CIG CGGTTIIAGACA 
D Tag SNP Y Y Y 
A T C 
一 -一 < 一 
G C G 


图 9-2 SNP, XBR, 3-4 7 5 Tag SNP 
A 图 中 彩色 标记 出 不 同 的 SNP 位 点 ,及 其 在 不 同 个 体 中 的 等 位 情况 ; B 图 显示 同一 个 体 某 个 基因 座 上 两 个 等 位 
位 点 组 合 , 即 基因 型 ; C 图 中 将 某 个 个 体 的 同一 条 染色 体 上 的 SNP 放 在 一 起 ,将 其 定义 为 单 体型 ,这 里 的 单 体 
型 是 一 个 狭义 的 概念 ,也 是 本 章 研 究 的 单 体型 含义 ; D 图 是 在 单 体型 基础 上 提出 的 基于 群体 分 布 的 单 体型 标 
签 , 即 Tag SNP 


外 ,由 于 SNP 本 喘 数 量 众多 、 分 布 广泛 等 特点 , 它 还 具有 非常 重要 的 功能 特性 。 我 们 习惯 
于 将 分 布 在 基因 (编码 或 非 编 码 ) 区域 ,并 且 能 够 直接 影响 基因 表达 数量 或 基因 产物 (和 蛋 
日 质 或 RNA ) 结构 的 SNP 称 为 非 同 义 SNP( non-synonymous SNP )。 在 实际 研究 中 ,还 发 
现 不 同 SNP 之 间 具 有 淤 在 的 相互 联系 ,同一 个 基因 或 同一 个 生物 学 过 程 中 多 个 SNP 的 互 
相 作用 能 够 起 到 从 量变 到 质变 的 效果 ,直接 影响 生理 指标 、 病 理发 生 和 药物 反应 的 差异 
性 。 这 些 提示 我 们 从 功能 和 生物 学 系统 的 角度 研究 SNP 在 复杂 性 状 和 复杂 疾病 中 的 作 
用 非常 重要 。 

人 类 的 遗传 变异 是 多 样 的 ,有 些 变 异 之 间 也 许可 以 通过 连锁 不 平衡 原理 由 SNP 进 行 发 
现 和 解释 ,但 有 些 变异 本 身 行 使 着 复杂 的 生理 和 病理 学 功能 ,是 SNP 所 不 能 替代 的 。 这 里 简 
要 介绍 一 下 人 类 染色 体 中 其 他 的 遗传 变异 ,涉及 最 简单 的 变异 形式 插入/ 删除 多 态 ( In/Del )、 
关系 碱 基数 量 最 大 的 多 态 拷贝 数 变异 ( copy number variants, CNV )、 早 期 应 用 的 遗传 标记 微 
卫星 ( microsatellite, MS ) 等。 
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单个 核 昔 分 子 遗 传 学 
。 。 碱 基 改 变 -点 突变 答 测 范畴 
一 单位 点 插入 删除 多 态 

SNP-tagSNPs 


序列 变异 


2 bp 到 1000 bp 

* APE, APE 

一 多 碱 基 插 入 删除 多 态 
。 “小 片段 逆转 
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das | ; 3 THEN tm Nn ^d freie 
pp a LINE st ga ie VO RI M a YET rr, 
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全 染色 体 到 全 基因 组 层面 
， 染色体 间 转 座 

环 式 染色 体 , 染 色 体 异 构 
。 ”标记 染色 体 a" 
— ” 非 整 倍 体 细胞 遗传 学 
一 ” 异 倍 体 检测 范畴 


图 9-3 人 类 染色 体 上 的 序列 和 结构 变异 


如 图 9-3 所 描述 的 人 类 染色 体 上 的 各 种 遗传 变异 ,我 们 以 1kb 长 度 为 界 , 将 遗传 变异 分 为 
两 类 ,一 类 自身 影响 的 范围 比较 小 ,是 包括 SNP 在 内 的 序列 变异 , 另 一 类 是 从 微 卫 星 和 插入 
删除 多 态 起 到 长 重复 片段 的 结构 变异 ,更 大 的 染色 体 变化 我 们 将 之 为 染色 体 畸 变 , 也 是 遗传 
学 研究 中 的 重要 范畴 ,这 里 我 们 不 展开 介绍 。 

微 卫 星 多 态 目 前 已 发 现 5000 余 个 ,是 早期 遗传 定位 研究 中 非常 重要 的 分 子 标记 ,也 与 冶 
症 等 多 种 疾病 的 稳定 性 有 关 。 已 经 发 现 的 人 类 插入 删除 多 态 已 达到 586 个 ,这 些 多 态 最 长 能 
达到 70kb, 在 多 种 疾病 ,特别 是 精神 病 发 生 过 程 中 有 重要 的 作用 。CNV 目 前 已 经 识别 了 1447 
个 ,涉及 360Mb 的 染色 体 范 围 , 占 人 类 色 体 总 量 的 12% ,是 影响 核 苷 酸 数 最 多 的 变异 形式 。 由 
于 CNV 本 身 的 长 度 超过 100kb ,能 够 直接 引起 基因 拷贝 数 .调控 区 段 的 变化 ,因此 对 于 生理 病 
理 有 着 重要 的 影响 。 变 异 组 学 的 研究 证 据 不 断 的 告诉 我 们 ,人 类 染色 体 中 还 有 着 巨大 的 未 
知 的 秘密 , 既 决定 了 人 类 种 族 的 一 致 性 ,又 决定 着 人 类 多 样 性 的 产生 ,由 于 他 们 的 存在 ,这 个 
世界 变 得 绚烂 多 彩 , 同 样 由 于 他 们 存在 ,人 们 对 人 生 的 感悟 又 有 所 不 同 。 真 正 全 面 了 解 这 
些 遗 传 变异 在 人 类 生理 病理 中 发 挥 的 重要 作用 ,才能 够 实现 从 系统 的 角度 揭示 人 类 生命 的 
本 质 。 
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二 、SNP 与 人 类 复杂 疾病 定位 >). 


复杂 疾病 机 制 研 究 是 生物 医学 研究 中 的 重 中 之 重 。 致 病 基 因 的 发 现 是 研究 复杂 疾病 机 
制 的 重要 环 世 ,也 是 长 期 困扰 科学 研究 者 的 一 个 难题 。 从 20 世 纪 初 ,人 们 就 在 探索 基于 分 子 
标记 的 统计 分 析 方 法 用 于 致 病 基 因 的 识别 ,到 20 世 纪 80 年 代 , 伴 随 分 子 生 物 学 技术 的 革新 ， 
这 一 俩 完 方 案 得 到 了 长 足 的 发 展 。 这 种 方法 通过 进行 标记 测定 ,采用 统计 学 方法 研究 分 子 
标记 的 遗传 特性 与 疾病 发 生 之 间 的 相关 性 ,来 实现 疾病 基因 的 染色 体 定 位 ,而 几乎 不 需要 任 
何 先 验 的 生物 学 知识 ,是 一 种 强大 的 疾病 基因 识别 手段 。 随 着 SNP 分 型 技术 的 发 展 , SNP 作 
为 一 种 最 重要 的 分 子 标记 ,不 仪 能 够 成 功 应 用 于 孟 德 尔 遗 传 病 的 研究 ,同时 被 广泛 用 来 进行 
复杂 疾病 的 染色 体 定 位 。 本 节 将 简要 的 介绍 基于 SNP 的 复杂 疾病 遗传 定位 实验 样本 选取 准 
则 、 连 锁 分 析 、 关 联 分 析 、 统 计 结 果 的 取舍 等 内 容 。 


(一 ) 参数 连锁 分 析 方 法 


对 于 雷 德 尔 遗 传 病 ( 单 基 因 病 ), 我 们 比较 清楚 地 知道 该 疾病 的 遗传 方式 、 外 显 率 、 基 因 
频率 等 指标 ,从 而 确定 一 个 准确 的 遗传 模型 进行 连锁 分 析 。 随 着 统计 方法 的 不 断 发 展 , 某 些 
遗传 模型 并 不 清楚 的 疾病 也 通过 改变 策略 而 适用 于 连锁 分 析 , 但 无 论 如 何 ,相对 准确 的 模型 
建立 是 参数 连锁 分 析 成 功 的 基本 和 条件。 直接 计 分 法 和 LOD 值 法 是 最 常用 的 参数 连锁 定位 方 
法 ,这 里 我 们 以 LOD 值 法 为 例 进 行 简要 的 介绍 。 

LOD 值 法 进行 连锁 分 析 首 先 针 对 某 一 疾病 收集 一 定数 量 的 家 系 资料 并 进行 分 离 分 析 ， 
确定 遗传 模型 ; 然后 通过 文献 检索 了 解 其 可 能 的 决定 性 状 的 染色 体 区 域 ,并 对 该 区 域 的 SNP 
进行 查询 和 沛 选 , 基 于 选 定 的 SNP, 对 该 家 系 成 员 进 行 基因 分 型 ; 最 后 通过 连锁 分 析 估 计 疾 
病 与 SNP 在 子 代 中 重组 的 发 生 率 , 计 算 LOD 值 ,确定 重组 分 数 及 相应 的 遗传 距离 ,并 进行 假设 
检验 ,判断 易 感 基因 是 否 与 遗传 标记 连锁 。 

LOD 值 是 指 在 一 定 重组 率 0 条 件 下 ,两 个 位 点 相连 锁 的 似 然 性 和 不 连锁 的 似 然 性 比值 的 
对 数值 。 HIP 


两 位 点 连锁 的 似 然 性 

两 位 点 不 连锁 的 似 然 性 

在 进行 连锁 分 析 时 ,要 计算 9=0.0( 不 重组 ) 到 9=0.5( 随 机 分 配 ) 的 一 系列 LOD 得 分 。 当 
LOD 得 分 为 +3 或 更 大 时 ,肯定 连锁 ; 当 LOD 值 得 分 小 于 或 等 于 -2 时 ,排除 连锁 。LOD 值 得 分 
最 大 时 的 9 值 被 接受 为 最 大 似 然 估计 值 。 由 于 现 有 的 LIPED (http: //linkage.rockefeller.edu/ 
ott/liped.html ), LINKAGE ( http: //linkage.rockefeller.edu/soft/linkage/ ), S.A.G.E.( http: //darwin. 
cwru.edu/sage/ ) 等 上 月 由 软件 包 提 供 了 包括 LOD 值 法 在 内 的 多 种 参数 连锁 分 析 工 具 , 这 里 对 有 具 
体 的 算法 不 再 展开 。 由 于 早期 的 连锁 分 析 方 法 对 模型 的 依赖 性 较 强 ,主要 适用 于 单 基 因 病 ， 
计算 速度 慢 等 原因 ,新 的 方法 也 在 不 断 的 开发 ,如 “混合 模型 ”方法 、 多 位 点 连锁 分 析 方 法 、 
基于 仿真 的 吉 布 斯 取样 及 索 特 卡 罗 方 法 等 。 

参数 连锁 分 析 方 法 已 经 被 应 用 于 几 百 种 备 德 尔 遗 传 病 的 遗传 定位 研究 中 ,同时 也 在 某 些 
复 琳 疾病 人 研究 ,特别 是 大 家 系 研 究 中 获得 成 功 。 当 然 ,实际 的 疾病 家 系 非常 复杂 ,所 以 在 研究 
中 还 应 该 注意 一 些 特殊 的 情况 : 如 果 在 特定 的 家 系 中 难以 获得 明确 的 连锁 关系 ,还 可 以 收集 
大 量 的 家 系 资料 进行 分 析 , 但 并 不 是 说 连锁 分 析 结 果 在 某 些 家 系 中 出 现 阳性 结果 就 可 以 忽略 


LOD-log;; ( 9-1) 
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阴性 结果 的 家 系 , 背 后 可 能 还 存在 更 复杂 的 遗传 机 制 。 同 样 , 在 实验 样本 获取 部 分 我 们 曾经 提 
出 五 个 基本 的 原则 ,参数 连锁 分 析 家 系 选择 过 程 中 也 可 以 考虑 以 上 的 因素 ,做 出 合理 的 家 系 沛 
选 。( 对 于 某 些 外 显 率 并 不 明确 的 疾病 ,还 需要 对 外 显 率 进行 估计 ,而 采用 疾病 个 体 特异 的 分 
析 策 略 ,将 无 病 个 体 设 置 为 表 型 未 知 个 体 也 是 一 种 有 效 的 分 析 方法 。 色 9 家系 中 某 些 个 体 的 疾 
病 表 型 并 不 典型 ,难以 确定 是 否 受累 ,如 茶 些 精 神 疾 病 。 这 时 就 需要 进一步 严格 疾病 定义 ,将 出 
现 某 一 特定 的 表 型 作为 诊断 的 标准 ,或 放宽 标准 ,只 要 出 现 疾病 某 一 典型 表现 即 定义 为 受累 。 


(二 ) 非 参 数 连锁 分 析 方 法 


非 参数 连锁 分 析 是 一 种 在 分 析 前 不 需要 确定 疾病 遗传 模式 (如 基因 型 频率 、 外 显 率 等 ) 或 
半 依 赖 模型 的 分 析 方 法 。 最 常用 的 非 参 数 连锁 分 析 方 法 是 等 位 共享 方法 。 等 位 共享 方法 不 依 
赖 于 遗传 模型 的 构建 ,而 是 一 个 排除 模型 的 过 程 。 通 过 显示 受累 亲属 间 高 于 随机 情况 的 共 至 
遗传 相同 的 染色 体 区 域 (或 位 点 ) 概率 来 证 实 染色 体 区 域 的 遗传 模式 与 备 德 尔 遗传 之 间 的 差 
别 。 由 于 等 位 共享 的 方法 是 一 种 非 参数 方法 , 比 参 数 连锁 分 析 方 法 有 更 宽泛 的 应 用 范围 ,而 且 
即使 在 受累 亲属 中 不 完全 显 性 、 表 型 复制 ,遗传 异 质 性 和 高 频 等 位 等 影响 因素 存在 时 ,也 有 和 较 
好 的 表现 。 而 唯一 的 缺陷 是 等 位 共享 方法 提供 的 结果 一 般 说 来 没有 参数 连锁 分 析 方 法 显著 。 

等 位 共享 方法 研究 家 系 中 亲属 在 共享 来 源 于 同一 祖先 的 特定 染色 体 区 域 或 位 点 的 频 
率 , 我 们 把 这 种 区 域 或 位 点 也 叫做 血 源 一 致 性 (identical-by-descent, IBD ), 然 后 将 某 个 位 
点 共享 [BD 的 情况 与 随机 进行 比较 。 通 常 ,我 们 可 以 构建 一 个 血缘 一 致 性 受累 家 系 成 员 
( identity-by-descent affected-pedigree-member, IBD-APM ) 统 计量 : 


t(s)= 2, X,G) ( 9-2.) 


式 9-2 中 , Xs ) 是 指 家 系 中 第 ;个 和 第 /个 亲属 在 染色 体位 点 8 处 共享 IBD 的 个 数 ,加 和 指 
的 是 这 个 家 系 中 所 有 亲属 对 在 s 处 共享 IBD 的 个 数 。 如 果 是 多 个 家 系 的 组 合 研 究 ,那么 可 以 
加 和 成 T(s )。 在 随机 分 离 状态 下 ,Ts ) 趋 于 均值 为 4, 标 准 差 为 c 的 正 态 分 布 ,4 和 c 可 以 通过 
计算 血缘 系数 ( kinship coefficient ) 获得 。 当 统计 量 ( T-w )/c 超 出 了 设 定 的 国 值 ,我 们 就 可 以 
判定 此 时 的 状态 与 随机 分 离 相 偏 离 , 从 而 得 到 阳性 的 结果 。 

在 等 位 共享 分 析 中 ,最 简单 的 一 种 形式 是 同胞 对 ( sib pairs ) 分 析 , 同 胞 对 共享 IBD 数 为 0， 
1 或 2( 随 机 情况 下 ,共享 频率 分 别 为 23% .50% .25% ,图 9-4 ), 可 以 采用 简单 的 x 检验 分 析 疾 
病状 态 下 的 等 位 共 圣 情况 。 这 样 的 方法 同样 可 用 于 受累 叔 侄 对 、 表 兄 第 对 的 研究。 


ab cd ab cd ab cd 


alc bld alc ald alc alc 
IBD=0 IBD=1 IBD=2 
IBS=0 IBS=1 IBS=2 


图 9-4 同胞 对 血缘 一 致 性 和 状态 一 致 性 示意 图 
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“IBD 之 外 ,还 有 一 个 与 之 相似 的 概念 状态 一 致 性 ( identical-by-state, IBS )。IBS 用 来 描 
述 亲 属 对 之 间 共 享 同 一 等 位 (不 区 分 是 否 同 一 祖先 来 源 ) 的 频率 。 两 者 的 基本 分 析 方 法 是 相 
通 的 ,但 采用 IBS 方 法 可 以 避免 IBD-PAM 分 析 过 程 中 对 IBD 的 估计 过 程 ,因此 应 用 也 非常 广 
沁 。 随 看 遗传 标记 分 型 技术 ,特别 是 SNP 分 型 技术 的 进步 , IBD 和 IBS 方 法 也 逐渐 应 用 于 基因 
组 范围 关联 人 研究 中 。 


(=) 关联 研究 发 现 疾 病 风险 SNP 


关联 人 研究 (association study ) 是 不 依赖 于 家 系 信息 的 一 种 遗传 定位 策略 ,由 于 资源 丰富 ， 
分 析 方 法 简便 ,是 目前 遗传 定位 研究 中 最 常用 的 分 析 方 法 。 关 联 研究 通过 检验 某 个 特定 的 
等 位 在 疾病 组 和 对 照 组 中 出 现 的 频率 差异 来 判断 此 等 位 是 否 是 疾病 易 感 等 位 。 以 SNP 而 言 ， 
发 现 风险 SNP 的 过 程 可 以 采用 四 格 表 x 检验 进行 等 位 频率 分 析 , 也 可 以 采用 2 x 3x 检验 进行 
基因 型 分 析 。 

菏 医 院 对 200 名 高 血压 患者 和 200 名 对 照 个 体 进行 检测 ,通过 限制 性 内 切 酶 方法 对 采 自 
这 些 个 体 的 外 周 血 淋巴 细胞 进行 分 析 , 获 得 了 SNP rs39461 的 基因 型 ( 表 9-2 ), 假 定 此 次 研究 
不 存在 采样 上 的 缺陷 , 问 这 个 SNP 是 否 与 高 血压 的 发 生 相关 ? 


表 9-2 患者 及 对 照 个 体 的 基因 型 统计 表 











疾病 组 3 36 161 200 
对 照 组 3 57 140 200 
合计 6 93 301 400 


在 一 般 的 SNP 分 型 实验 中 ,我 们 首先 获得 的 数据 就 是 个 体 的 基因 型 数据 ,对 这 些 个 体 按 
疾病 和 对 照 组 进行 统计 就 能 得 到 类 似 于 表 9-2 的 统计 表格 。 根 据 学 过 的 统计 学 知识 ,我 们 知 
道 ,这 个 例题 事实 是 一 个 两 样本 频数 (计数 资料 ) 差异 比较 问题 ,如 果 直 接 从 基因 型 频率 考 
虑 ,这 个 问题 适用 于 自由 度 为 2 的 卡 方 检验 ,那么 ,我 们 可 以 进行 这 样 的 处 理 : 

(1 ) 建 立 检 验 假 设 , 确 定 检验 水 准 

H, : 在 检测 群体 中 ,这 个 SNP 与 高 血压 的 发 生 相 关 

H, : 在 检测 群体 中 ,这 个 SNP 与 高 血压 的 发 生 不 相关 





a=0.05 
(2 ) 计 算 检验 统计 量 
AP 
ae? -1}y=(R-I(C-1 ( 9-3) 
anc. 


1 为 总 例 数 , R、C 分 别 为 行 数 和 列 数 , 4 为 每 格 的 频数 , x 20.4523 A ER RE ,将 表格 中 各 数 
值 代入 公式 得 x =0.45 , v=2。 

(3 ) 确 定 p 值 ,作出 推论 

查 表 得 p=0.746 > 0.05, f£ a =0.05 的 水 准 , 接 受 色 , 即 在 此 检测 群体 中 , SNP rs39461 与 高 
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血压 的 发 生 没有 相关 性 。 

在 上 面 的 例题 中 ,我 们 采用 了 简单 的 统计 方法 对 SNP 与 疾病 关联 性 进行 了 分 析 ,方法 
上 的 简捷 性 显而易见 。 但 关联 研究 也 有 上 比较 明显 的 缺点 , 即 对 对 照 组 样本 选取 具有 严格 
的 限制 ,此 外 ,由 于 关联 研究 可 能 针对 任何 一 个 分 子 标记 进行 ,而 不 存在 先 验 的 假设 ,对 关 
联 研究 发 现 的 风险 SNP 尚 需要 进行 可 靠 的 功能 验证 。 由 此 可 见 ,关联 研究 中 对 标记 信息 的 
分 析 比 研究 方法 本 身 更 重要 ,下 面 我 们 将 从 关联 研究 机 制 上 来 探讨 风险 SNP 发 现 应 注意 的 
问题 。 

关联 研究 中 发 现 SNP 与 疾病 发 生 之 间 的 显著 相关 性 可 能 存在 三 个 原因 : (DSNP 本 身 就 
是 一 个 致 病 的 SNP; @SNP 本 身 不 能 导致 疾病 ,但 与 导致 疾病 的 基因 处 于 连锁 不 平衡 状态 ; 
@ 研 究 群 体 选择 失误 造成 的 统计 显著 性 。 第 三 种 情况 是 关联 研究 过 程 中 需要 避免 的 ,所 以 
关联 研究 过 程 中 还 应 注意 三 点 : 关联 分 析 的 样本 选取 要 严格 限制 在 同 质 性 群体 中 ; @ 关 











的 阳性 位 点 可 进行 传递 不 平衡 检验 ( transmission disequilibrium test, TDT ) 来 确认 发 现 的 致 
病 等 位 在 家 庭 遗 传 中 倾向 于 向 患 病 子 代 遗传 。 

由 于 复杂 疾病 发 生 过 程 中 ,存在 遗传 位 点 间 的 相互 作用 ,单个 位 点 的 关联 分 析 方 法 有 时 
不 能 获得 足够 的 信息 来 发 现 某 些 区 域 与 疾病 之 间 的 关联 性 。 基 于 单 体型 .罗杰斯 特 回归 E 
成 分 分 析 随机 和 杰 林 等 统计 学 和 机 顶 学 习 方 法 的 遗传 定位 方法 成 为 有 用 的 研究 手段 ,得 到 了 
比较 广泛 的 应 用 。 

总 起 来 看 ,关联 研究 和 连锁 分 析 有 很 多 重要 的 区 别 。 关 联 研究 检验 疾病 与 等 位 频率 在 
群体 中 是 否 存 在 相关 性 ,连锁 分 析 检 验 疾病 与 位 点 是 否 在 家 系 中 共同 传递 。 当 群体 中 致 病 
因素 是 多 样 的 ,而 且 致 病 位 点 相互 独立 ,散在 存在 的 时 候 , 每 个 位 点 与 疾病 关联 都 将 很 弱 , 遗 
传 定位 中 往往 只 能 检测 到 连锁 而 难以 发 现 关 联 ; 相反 , 当 致 病 位 点 等 位 效应 较 弱 ,对 疾病 页 
献 较 小 时 ,但 在 疾病 个 体 中 有 较 高 的 等 位 频率 时 ,基于 家 系 的 连锁 分 析 难 以 发 现 潜 在 的 传递 
模式 ,而 关联 研究 却 能 识别 出 这 种 致 病 位 点 。 因 此 ,关联 研究 和 连锁 研究 本 吴 并 不 存在 识 强 
训 罚 ,而 需要 考虑 实际 解决 的 问题 进行 选择 。 

传统 的 连锁 和 关联 分 析 依 赖 于 实验 室 SNP 分 型 技术 ,如 限制 性 片段 长 度 多 态 性 方法 AE 
性 梯度 凝 胶 电 泳 、 等 位 基因 特异 春 核 苷 酸 片 段 分 析 等 ,伴随 高 密度 基因 必 片 技术 的 发 展 ,这 
些 技术 对 于 测序 低 通 量 或 单 基因 多 态 位 点 有 着 各 目的 优势 ,经 济 实用 ,便于 一 般 实 验 室 从 头 
设计 基于 单 基因 或 某 一 染色 体 候 选区 段 的 风险 SNP 筛 选 。 伴 随 新 型 高 密度 基因 心 片 技术 的 
发 展 和 商业 化 , 单 次 实验 可 对 某 个 样本 数 十 万 甚至 上 百 万 的 SNP 位 点 进行 同时 测定 。 单 次 
实验 SNP 测 定数 量 的 增加 ,使 得 人 们 有 可 能 从 更 大 范围 ,直至 全 基因 组 范围 进行 疾病 关联 的 
SNP UAE ,并 将 关联 分 析 或 连锁 分 析 方 法 扩展 到 整个 基因 组 维度 , 即 目前 广泛 开展 的 基因 组 
范围 关联 分 析 ( genome-wide association study, GWAS )。 


(四 ) 遗传 分 析 中 的 统计 显著 性 

遗传 分 析 方 法 虽然 笼统 的 分 为 两 类 ,但 相应 的 研究 方法 众多 , 既 有 传统 的 统计 分 析 
方法 ,也 有 衍生 而 来 的 机 需 学 习 方 法 ,但 无 论 采 用 何 种 方法 进行 复杂 疾病 的 遗传 分 析 ,最 
终 者 将 面 对 统 计 结 果 的 取 侈 问题, 即 如 何 进行 统计 显著 性 的 国 值 设 定 。 而 且 ,这 个 问题 ， 
还 将 因为 遗传 分 析 中 分 子 标记 的 增多 或 检验 模型 的 增加 ,特别 是 CWAS 的 开展 而 变 得 更 
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在 进行 SNP 与 疾病 之 间 的 连锁 或 关联 分 析 时 ,我 们 要 设置 一 个 可 以 接受 的 假设 检验 
显著 性 水 平 a( 一 般 为 5% )。 这 样 ,每 一 次 检验 ,都 有 5% 的 可 能 引入 一 个 假 阳 性 的 结果 ( T 
类 错误 )。 当 进行 n 次 独立 的 连锁 或 关联 检验 时 ,引入 的 I 类 错误 水 平 将 满足 a=1-( 1-a)", 
当 n 变 大 时 ,引入 的 假 阳 性 结果 也 将 增多 ,从 而 使 得 在 进行 数 以 千 计 的 SNP 关 联 或 连锁 分 析 
时 ,需要 对 a 进行 Bonferroni 校 正 a'=a/n。 在 这 种 情况 下 ,如 果 对 1000 个 SNP 进 行 检验 , 且 要 
达到 显著 性 水 平 a=0.05 ,需要 达到 真实 的 显著 性 水 平 为 a=5 x 107 ,而 100 万 个 SNP 进 行 检验 
时 ,所 需要 达到 的 真实 显著 性 水 平 为 a’=5 x 107, 这 对 于 高 维度 SNP 遗 传 定位 是 个 灾难 性 的 
结果 ,直接 导致 单 次 关联 或 连锁 分 析 所 能 获得 的 显著 性 结果 极 少 ,一 方面 许多 真正 相关 的 
SNP 没 有 被 发 现 ,造成 了 很 大 的 假 阴 性 , 男 一 方面 在 发 现 的 极 少 的 显著 性 结果 中 依然 存在 
i BOK AEA o 
因此 ,对 于 遗传 定位 的 结果 取舍 ,特别 是 多 重 检 验 问题 一 回 都 是 人 们 关注 的 重点 ,采用 
多 次 随机 进行 SNP 与 疾病 相关 性 检验 进行 显著 性 水 平 选 取 是 目前 为 回避 多 重 检验 校正 而 广 
泛 采 用 的 一 种 方法 。 男 外 ,考虑 到 基因 组 中 广泛 存在 的 连锁 不 平衡 问题 ,对 待 检 的 SNP 进 行 
LD 修正 是 降低 多 重 检验 校正 影响 的 一 种 有 效 方法 。 此 外 ,在 芯片 分 析 中 采用 的 FDR 方 法 也 
经 党 用 于 遗传 定位 结果 的 修正 。 








三 、 变 异 组 学 研究 资源 >> 


(一 ) 国际 人 类 单 体型 图 计划 及 其 应 用 


1. 国际 人 类 单 体 型 图 计划 概况 国际 人 类 单 体型 图 计划 (international HapMap 
project, HapMap ) 是 继 国 际 人 类 基因 组 计划 之 后 ,人 类 基因 组 研究 领域 的 又 一 个 重大 国际 
合作 项 目 。HapMap 计 划 起 始 于 2002 年 ,由 美加 中 日. 英 ` 尼日利亚 等 国 研 究 机 构 发 起 、 
参与 及 完成 。 中 国 科 学 家 承担 3 号 21 号 和 8 号 染色 体 短 臂 单 体型 图 的 构建 ,工作 量 约 占 
总 计划 的 10%。 项 目 共 取样 270 个 正常 个 体 , 其 中 有 欧 裔 美国 人 和 尼日利亚 雅 鲁 巴 人 ( 非 
洲 ) 各 30 个 核心 家 系 ( 90 个 个 体 ), 及 中 国 北 京 汉 族人 及 日 本 东京 人 各 45 个 个 体 。 一 期 已 
于 2005 年 完成 ,成 功 分 型 100 多 万 个 常见 SNP 位 点 的 识别 ,达到 平均 每 3kb 一 个 SNP 的 测定 。 
由 于 染色 体 连锁 不 平衡 的 存在 ,一 期 数据 可 以 捕获 基因 组 上 80% 的 遗传 差异 信息 。 二 期 计 
划 在 一 期 基础 上 完成 300 多 万 个 SNP 位 点 的 分 型 ,构建 起 一 张 精 度 更 高 .信息 更 完整 的 多 人 
种 遗传 多 态 图 谱 。 三 期 计划 已 经 开展 ,在 进一步 测定 原 有 和 群体 基因 型 基础 上 ,加 入 另外 7 
个 不 同 历史 遗传 背景 的 人 群 , 部 分 分 型 数据 已 经 发 布 。HapMap 计 划 期 望 在 全 部 完成 时 能 
够 提供 一 个 包括 全 部 人 类 遗传 差异 的 多 态 组 图 谱 , 同 时 带动 其 他 人 类 遗传 变异 的 发 现 和 
研究 。 

2. HapMap 数 据 特 点 与 扩展 应 用 HapMap 计 划 建 立 了 人 类 全 基因 组 遗传 多 态 图 谱 , 依 
据 这 张 图 谱 我 们 可 以 进一步 研究 基因 组 的 结构 特点 以 及 SNP 位 点 在 人 群 间 的 分 布 情况 ,为 
群体 遗传 学 、 进 化 遗传 学 分 析 提 供 数 据 , 也 为 复杂 疾病 的 遗传 定位 提供 高 密度 的 SNP 数 据 参 
考 。HapMap 的 构建 分 为 三 个 步骤 QD 在 多 个 个 体 的 DNA 样 品 中 鉴定 单 核 并 酸 多 态 ( SNP ); 


— 
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@) 将 群体 中 频率 大 于 1% 的 那些 共同 遗传 的 相 邻 SNP 组 合成 单 体型 ; (3 在 单 体型 中 找 出 用 于 
识别 这 些 单 体型 的 标签 SNP。 这 样 , HapMap 提 供 的 每 个 研究 个 体 的 数据 包括 SNP 等 位 .基因 
型 .基因 型 频率 .200kb 范 围 内 SNP 之 间 的 LD 量 度 ( £^, D' )。 

伴随 HapMap 计 划 的 进一步 拓展 ,结合 群体 遗传 学 的 研究 手段 ,我 们 可 以 更 加 这 入 地 去 
观察 和 研究 基因 组 。 基 于 大 和 群体、 多 种 群 的 人 类 单 核 背 酸 多 态 数 据 的 重组 率 推 算 提 供 了 我 
们 一 张 基因 组 进化 痕迹 图 ; 连锁 不 平衡 的 计算 给 了 我 们 一 张 基 因 组 块 状 连锁 结构 图 ; 种 群 
差异 研究 让 我 们 看 到 一 张 种群 间 基因 组 结构 差异 图 ; SNP 的 杂 合 情况 告诉 我 们 人 类 基因 组 
上 受到 选择 的 区 域 或 区 域内 的 基因 ; 利用 SNP 位 点 向 两 边 延 伸 的 长 度 差异 情况 ,我 们 可 以 观 
察 到 一 些 基因 组 上 近期 正在 进行 的 选择 事件 ,甚至 是 当前 正在 悄悄 进行 中 的 进化 ,因为 新 产 
生 的 突变 位 点 传代 较 少 , 它 和 周围 位 点 的 连锁 情况 受 重 组 事件 的 影响 较 小 , 男 一 方面 优势 突 
变 也 会 因 选 择 压 力 的 存在 使 周围 的 重组 受到 影响 …… 当 然 这 些 不 同 的 指标 中 也 隐藏 了 人 类 
成 长 过 程 中 的 一 些 信息 ,例如 迁徙 .战争 灾难、 繁盛 等 对 基因 组 遗传 多 态 性 产生 影响 的 历史 
事件 。 

此 外 ,高 密度 的 SNP 位 点 ,为 进一步 加 强 和 完善 基因 组 范围 的 表 型 和 遗传 相关 性 分 
析 ( 关 联 研 究 或 数量 性 状 定位 ) 提供 了 可 能 ,以 往 遗 传 学 上 定位 基因 使 用 较 多 的 工具 是 
微 卫 星 ,这 些 新 产生 的 SNP 位 点 弥补 了 微 卫 星 在 基因 组 上 分 布 不 够 均匀 、 密 度 不 够 高 的 
缺点 ,是 一 种 更 为 有 效 的 分 子 标记 。 目 前 ,已 经 有 很 多 致 病 基 因 借 助 SNP 数 据 得 到 定位 。 
另外 ,根据 SNP 在 基因 的 不 同 功能 元 件 中 的 分 布 情况 和 基因 在 细胞 中 的 表达 情况 ,我 们 
可 以 研究 基因 上 的 不 同 元 件 序 列 是 如 何 控制 蛋白 表达 进而 影响 个 体 表 型 的 。 伴 随 着 
HapMap 三 期 数据 的 产 出 、 各 种 实验 技术 的 进一步 发 展 ,以 及 更 加 大 量 的 基因 组 序列 数据 
加 入 到 人 类 的 知识 库 中 ,与 此 相关 的 研究 方法 和 研究 手段 会 不 断 出 现 ,我们 将 能 够 更 加 
完整 更 加 深入 、 正 确 地 认识 我 们 自己 ,揭示 生老病死 的 奥秘 ,并 为 人 类 生存 质量 的 提高 
提供 有 益 的 参考 信息 。 

3. 利用 HapMart 进 行 科 学 研究 ”为 了 便于 科研 工作 者 快速 提取 感 兴趣 的 SNP 数 据 ,在 
HapMap 数 据 基础 上 , BioMart( 一 个 重要 的 生物 信息 学 数据 分 析 平 台 ) 开 发 了 方便 .友好 的 
SNP 获 取 网 络 平台 HapMart。 这 个 平台 支持 研究 者 输入 SNP、 基 因 、 染 色 体 区 段 等 信息 进行 限 
定 条 件 下 的 SNP 查 询 及 相关 信息 的 输出 。 由 于 HapMap 数 据 本 身 跨 群 体 的 特性 ,用 户 可 以 通 
过 这 个 平台 进行 不 同 群 体 间 的 数据 提取 ,如 果 是 候选 基因 或 多 SNP 实 验 设 计 , 还 可 以 联系 其 
他 的 连锁 不 平衡 分 析 工 具 ( 如 下 文 将 提 及 的 Haploview ) 及 感 兴 趣 的 基因 型 频率 信息 进行 深 
层次 的 SNP 选 择 。 利 用 HapMart 进 行 SNP 数 据 的 提取 主要 分 为 三 个 步骤 : 输入 设置 输出 设置 
和 结果 导出 。 

(1 )HapMart 的 输入 设置 : 图 9-5 显 示 了 HapMart 查 询 过 程 中 的 输入 和 查询 限制 界面 。 在 
这 里 ,可 以 进行 研究 群体 的 选择 、SNP 质 量 限 定 , 以 及 查询 设置 。 目 前 , HapMart 主 要 支持 四 
个 群体 的 查询 ,后续 的 群体 正在 添加 中 。 对 于 目标 SNP 可 以 进行 最 小 等 位 频率 、 分 型 机 构 、 
分 型 平台 、SNP 类 型 的 限定 。 可 以 根据 SNP 的 标识 符 、 定 位 区 域 (功能 区 域 或 染色 体位 置 ), 及 
其 与 基因 的 位 置 关 系 进行 单个 或 高 通 量 的 SNP 查 询 。 

( 22 HapMart 的 输出 设置 : 图 9-6 显 示 了 HapMart 的 SNP 输 出 属性 设置 界面 。 可 以 根据 研 
究 者 的 研究 兴趣 进行 设 定 , 并 输出 相应 的 结果 。SNP 相 关 属 性 主要 有 标识 .遗传 定位 、 等 位 
和 基因 型 状态 和 频率 特征 。 
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图 9-5 HapMart 的 输入 设置 界面 
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图 9-6 HapMart 的 输出 设置 界面 





3 ) 查询 结 来 的 导出 : 根据 研究 着 的 研究 兴趣 和 输入 输出 设置 ,以 特定 的 格式 显示 和 导 
出 碍 询 线 采 。 图 9-7 显 示 限 定 最 小 等 位 频率 0.01 时 ,定位 在 基因 IL10 上 的 SNP 位 置 .等 位 和 基 


因 型 频率 信 下 是 as 


HapMart 查 询 结 果 以 HapMap 数 据 为 基础 ,提供 的 是 不 同 种 群 特定 群体 的 SNP 信 息 , 主要 
用 以 实验 设计 者 针对 特定 人 和 群 的 实验 参考 。 由 于 计划 测定 规模 的 限制 ,数据 本 身 存 在 一 定 


的 偏差 ,因此 查询 结果 应 当 进行 一 


定 的 预 实 


验 和 初步 分 析 , 才 能 用 于 大 规模 实验 。 
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图 9-7 HapMart 的 结果 显示 与 导出 界面 
(=) SNP 存 储 与 维护 数据 库 dbSNP 


SNP 作 为 新 一 代 遗 传 标 记 具 有 数量 多 分 布 广 、 密 度 大 等 特点 ,已 广泛 应 用 于 遗传 学 研 
究 中 。 为 了 满足 对 基因 组 范围 总 体 变异 的 需求 ,解决 在 关联 研究、 基因 定位 、 功 能 和 药理 遗 
传 学 .群体 遗传 学 .进化 生物 学 以 及 定位 克隆 物理 作 图 等 领域 中 大 规模 抽样 设计 的 需求 ， 
NCBI 与 NHCRI 协 作 创建 了 dbSNP。 通 过 dbSNP ,由 公共 和 私人 组 织 提交 的 遗传 变异 数据 与 
其 他 信息 来 源 , 如 GeneBank、PubMed 、LocusLink 及 人 类 基因 组 数据 实现 交 义 引用 ,为 广大 研 
究 者 提供 了 丰 晤 的 遗传 变异 ,特别 是 SNP 信 息 ,呈现 了 一 幅 全 面 的 人 类 SNP 的 基因 组 分 布 图 。 
充分 利用 数据 库 中 资源 将 大 幅度 降低 研究 成 本 提高 研究 效率 。 此 处 ,就 dbSNP 数 据 库 的 功 
能 .范围 .数据 提交 、 检 索 进 行 简要 的 介绍 。 

1. dbSNP 的 主要 功能 

(1 ) 遗传 变异 序列 环境 分 析 : dbSNP 通 过 BLAST 和 E-PCR 对 变异 周围 序列 进行 分 析 , 将 
其 链接 到 其 他 NCBI 序 列 资源 ,对 变异 进行 交叉 注释 。 用 户 可 直接 在 dbSNP 中 检索 ,或 在 NCBI 
查询 空间 的 任何 部 分 开始 ,构建 一 个 满足 要 求 的 dbSNP 记 录 集 ,该 记录 可 通过 超 文本 或 URL 
与 外 部 信息 资源 整合 。 

(2 ) 基 于 NCBI 的 遗传 变异 交叉 注释 : 在 后 基因 组 时 代 , 对 特征 序列 的 注释 (如 新 基因 或 
调控 区 域 ) 为 当前 在 随机 序列 中 发 现 的 变异 提供 一 个 功能 背景 。 随 着 这 些 新 基因 条 目的 出 
现 , dbSNP 通 过 链接 能 够 将 变异 自动 注释 到 恰当 的 参考 序列 集 或 UniGene 集 中 。 

(3 ) 外 部 资源 整合 : dbSNP 具 有 “LinkOut URLs” 功 能 ,将 变异 信息 链接 到 NCBI 之 外 的 信 
县 资源 。 这 种 整合 非常 重要 ,尤其 是 当 我 们 考虑 将 变异 注释 到 整个 基因 组 上 或 考虑 其 对 生 
物体 的 意义 时 。 

(4 ) 遗传 变异 的 功能 分 析 : NCBI 没 有 直接 地 在 序列 上 注释 变异 的 详细 生物 化 学 或 者 表 
型 信息 ,而 在 dbSNP 中 保留 了 与 外 部 数据 库 的 链接 。 因 此 , dbSNP 记 录 能 够 链接 到 那些 对 个 
别 变 异 描述 更 加 完整 的 位 点 特异 突变 数据 库 。 
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2. dbSNP 数 据 特征 ”dbSNP 数 据 库 中 不 仅 收 录 了 人 类 SNP 数 据 , 还 收录 了 所 有 已 知 的 路 
物种 的 SNP 插入/ 缺失、 拷贝 数 和 微 卫 星 多 态 , 且 包含 种 族 特 异 频率 和 基因 型 数据 .实验 条 
件 、 分 子 背 景 , 以 及 功能 特性 和 临床 变异 的 定位 信息 。 和 截止 到 2009 年 10 月 7 日 , dbSNP 已 经 更 
新 至 130 版 本 ,涉及 35 个 物种 的 1.5 亿 个 SNP , 编码 区 SNP 已 超过 2 千 万 ,具有 频率 信息 的 SNP 超 
过 300 万 个 。 

3. 向 dbSNP 提 交 数 据 目前 ,科研 领域 出 版 物 中 涉及 的 遗传 变异 信息 一 般 要 求 提 交 到 
dbSNP 数 据 库 中 。 所 需 数据 提交 信息 包括 特定 位 点 观察 到 的 等 位 基因 突变 周围 的 侧 次 序 
列 、 使 用 的 实验 方法 , 伴 有 STS 或 GeneBank 记 录 的 指针 。 每 个 特异 实验 室 具 有 唯一 标识 ,这 将 
允许 提交 的 数据 与 特定 试验 室 相 关联 。NCBI 将 会 给 每 个 提交 的 SNP 分 配 一 个 编号 ss#, 一 种 
生物 基因 组 中 涉及 的 唯一 SNP 也 将 分 配 一 个 标识 符 ( 人 类 的 SNP 标 识 符 为 rs# )。 所 有 这 些 编 
号 或 标识 符 被 用 于 将 SNP 映 射 到 外 部 资源 或 数据 库 中 ,包括 NCBI 中 其 他 数据 库 。 

4. 利用 dbSNP 进 行 信息 检索 ”在 dbhSNP 中 可 直接 查询 ,也 可 通过 其 他 NCBI 查 询 框 来 检 
索 。 直 接 查 询 可 以 通过 提交 实验 室 .新 的 批量 提交 鉴定 方法 、 群 体 类 型 研究 ,书刊 题目 、 群 
体 变异 水 平 或 STS 映 射 信息 实现 。 作 为 NCBI 中 一 个 整合 部 分 , dbSNP 中 内 容 与 其 他 信息 资源 
记录 是 横 问 链接 的 。 从 其 中 任何 来 源 中 查询 的 结果 集合 会 给 用 户 提供 一 个 返回 dbSNP 相 关 
记录 的 指针 。 图 9-8 显 示 的 是 以 人 类 IL10 基 因 相 关 SNP 为 例 的 dbSNP 查 询 过 程 ,及 其 显示 结 
果 , 进 一 步 点 击 蓝 色 链 接 将 显示 每 个 SNP 的 详细 信息 。 
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图 9-8 dbSNP 的 查询 界面 


5. 提供 dbSNP 交 叉 引 用 的 模块 ”BLAST: dhSNP 查 询 ,可 通过 标准 的 BLAST 算法 来 实现 ， 
即将 用 户 提交 的 序列 与 dbSNP 中 所 有 侧 豆 序列 记录 进行 匹配 。 除 了 在 NCBI 首 页 中 提供 了 
一 般 的 BLAST 功能 , dbSNP 中 也 提供 了 此 功能 。LocusLink: dbSNP 也 可 通过 将 其 与 其 他 NCBI 
资源 整合 来 检索 。 通 过 LocusLink ,由 基因 名 字 或 系统 命名 来 进行 检索 。 从 LocusLink 数 据 库 
中 检索 的 结果 将 呈现 为 一 个 紫色 的 V 形 按钮 ,该 按钮 可 以 指 癌 一 个 LocusLink 数 据 库 中 任何 
一 个 基因 上 的 参考 SNP 记 录 列 表 。Entrez: “图形 可 视 化 ”旁边 的 工具 条 有 一 个 链接 将 dbSNP 
中 的 SNP 记 录 和 链接 到 Entrez Gene 数 据 库 ,这 样 的 链接 可 以 直接 看 到 Entrez Gene 中 的 基因 上 的 
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SNP 分 布 情况 ,并 能 够 根据 需求 ,如 是 否 具 有 频率 、 是 否 编码 等 信息 进行 可 视 化 的 SNP 查 询 。 
Genome sequence; 重合 视图 除了 可 以 设置 为 显示 STS ‘marker’ ”和 序列 组 成 ,还 可 以 显示 “ 变 
异体 ”。 

图 9-9 显 示 了 dbSNP 与 Entrez Cene 之 间 的 交叉 引用 结果 ,通过 Entrez Cene 回 dbSNP 的 超 链 
接 , 查 询 到 丰 710 基 因 上 的 SNP 分 布 情况 。dbSNP 用 不 同 的 颜色 和 柱 体 长 度 表示 基因 上 的 SNP 
类 型 及 其 频率 状况 ,对 于 深入 的 选取 对 研究 有 影响 的 SNP 提 供 了 直观 的 借鉴 信息 。 从 查询 
结果 上 看 ,从 dbSNP 展 开 的 查询 获得 的 SNP 数 量 要 比 HapMart 的 多 ,这 主要 是 dbSNP 本 身 不 限 
制 收 录 的 SNP 最 小 等 位 频率 造成 的 ,所 以 研究 过 程 中 还 应 当 进 一 步 考虑 频率 和 相应 的 群体 
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(=) 关联 研究 基因 型 数据 的 存储 与 整理 dbGap 

1. dbCap 的 主要 功能 国家 生物 技术 信息 中 心 CNCBI ) 建立 了 基因 型 和 表 型 数据 库 
dbGaP。dbGaP 的 开发 是 为 了 存储 和 发 布 基因 型 和 表 型 相关 的 研究 数据 及 人 研究 结果 。 这 些 
研究 包括 全 基因 组 关联 研究 .医疗 测序 .分子 诊断 化 验 , 以 及 基因 型 与 非 临 床 性 状 之 间 的 关 
联 性 。 用 于 基因 分 型 的 高 通 量 \ 低 成 本 、 高 效率 的 分 析 方 法 人 研究, 发现 海量 基因 型 和 表 型 数 
据 相关 性 的 未 知 信息 提供 了 强 有 力 的 工具 。 

dbGaP 是 一 个 存储 了 个 体 水 平 的 表 型 .基因 型 和 序列 数据 ,以 及 它们 之 间 的 关联 性 的 公 
共 知 识 库 。dbGap 收 录 的 数据 绝 大 部 分 是 大 规模 的 基因 组 范围 关联 研究 数据 ,对 研究 过 程 中 
得 到 的 信息 子 集 ,包括 文件 ,个 体 表 型 变量 特征 数据 表 、 基 因 型 数据 ,计算 表 型 与 基因 型 之 
间 的 相关 性 , 设 定 唯一 的 标识 符 。 其 中 的 部 分 数据 采用 直接 开放 的 管理 办 法 , 非 注册 用 户 即 
可 直接 下 载 相 关 的 数据 进行 非 商 业 化 的 科学 研究 。 为 了 确保 被 研究 者 的 个 人 权益 及 数据 检 
测 部 门 的 优先 使 用 权利 , dbGap 中 的 大 部 分 数据 的 访问 和 使 用 需要 进行 人 工 申 请 。 

dbGaP 包 含 了 对 各 种 各 样 设计 的 人 研究。 它 包 括 四 个 基本 类 型 的 数据 : 了 研究 文件 ,包括 
研究 说 明 ,协议 文件 和 数据 收集 文书 ,如 问卷 调查 表 ; @) 每 个 被 评估 变量 的 表 型 数据 ,包括 在 
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个 体 水 平 上 的 和 以 摘要 形式 进行 评估 的 ; @) 遗 传 数据 ,包括 研究 对 象 的 个 体 基 因 型 .谱系 信 
息 、 精 细 定 位 结果 和 重新 测序 的 描述 ; 统计 结果 ,包括 关联 和 连锁 分 析 结 果 。 
2. dbGap 中 保存 的 数据 访问 为 了 保护 研究 对 象 的 权益 , dbGaP 只 接受 已 被 查 明 的 数据 
并 要 求 调查 员 需 通过 一 个 授权 程序 才 可 以 获取 个 体 水 平 的 表 型 和 基因 型 数据 集 。 总 结 性 的 
表 型 和 基因 型 数据 ,以 及 人 研究 文件 ,可 以 无 限制 的 获取 。 
dbGaP 提 供 两 个 访问 级 别 - 开 放 的 和 受 控 的 -这 么 做 的 目的 是 为 了 让 非 敏感 数据 广泛 开 
放 , 同 时 提供 对 涉及 了 个 人 健康 信息 的 敏感 数据 集 进行 负责 任 地 监督 和 调查 。 研 究 的 总 结 
和 测量 变量 的 内 容 ,以 及 原始 研究 文件 的 文本 ,一般 会 提供 给 公众 ,而 要 获得 这 些 个 体 水 平 
的 数据 ,包括 表 型 数据 表 和 基因 型 数据 就 需要 不 同 的 授权 级 别 。 
(1 ) 开 放 数 据 : 开放 式 访问 数据 可 以 在 线 浏览 或 未 经 批准 或 授权 就 可 以 从 dbGaP 中 下 
载 。 这 些 数据 将 包括 ,但 并 不 仅 限 于 表 9-3 所 列 的 内 容 。 
表 9-3 dbGaP 中 的 数据 类 型 
a ee Ge — 3 
研究 当 浏 览 研究 时 在 名 为 " Study’ 的 列 中 出 现 
在 标签 ' Studies' 下 一 个 搜索 的 结果 
通 往 一 个 变量 或 一 个 文件 的 路 径 的 一 部 分 
研究 文件 从 ′ Browse Studies' 链接 
Ej' Associated Documents’ 下 的 研究 报告 链接 
标签 ' Study Documents’ 下 的 一 个 搜索 结果 
表 型 变量 55’ ‘Browse Studies’ 链接 
| Ej' Associated Variables’ 下 的 研究 报告 链接 
标签 ' Variables' 下 的 一 个 搜索 结果 
基因 型 - 表 型 分 析 与 ' Associated Analyses’ 下 的 变量 报告 链接 
与 ”Associated Analyses’ 下 的 研究 报告 链接 














这 和 是 一 个 可 用 于 开放 式 进 入 用 户 的 一 般 性 描述 。 提 供给 开放 式 进 入 用 户 的 数据 可 能 在 
人 研 究 之 间 变 化 ,也 可 能 没有 通知 就 与 这 里 描述 的 有 所 不 同 。 

(2 ) 受 限 数 据 : 受 控 访问 数据 只 能 在 用 户 已 通过 适当 的 数据 访问 委员 会 (DAC ) 的 授权 
后 才能 获得 。 提 供给 授权 的 调查 人 员 的 数据 可 能 要 包括 以 下 内 容 : (D 用 于 个 人 人 研究 课题 的 
确定 的 表 型 和 基因 型 ; @) 谱 系 ; (3 基因 型 与 表 型 之 间 在 计算 前 期 的 单 变 量 的 相关 性 ( 如 果 没 
有 在 公开 网 站 上 提供 )。 

由 于 数据 访问 策略 是 基于 每 个 研究 的 基础 上 确定 的 ,提供 给 用 户 的 带 有 受 控 访 问 授权 
的 数据 在 不 同 的 研究 之 间 可 能 会 发 生变 化 , 且 也 有 可 能 在 没有 通知 的 情况 下 就 与 这 里 所 描 
述 的 有 所 不 同 。 关 于 用 于 一 个 特定 的 研究 的 数据 的 访问 策略 ,可 以 在 研究 报告 页 连同 适当 
的 授权 机 构 的 链接 上 找到 更 多 的 细节 。 
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Section 3 The Molecular System Analysis of Complex Diseases 


一 \ 面 向 通路 的 基因 组 范围 关联 研究 》2》 


随 春 人 类 基因 组 计划 和 HapMap 计 划 的 开展 和 完成 ,已 识别 的 人 类 SNP 已 达到 千 万 , 篆 
见 SNP 数 量 也 已 经 达到 300 万 以 上 , 同时 HapMap 计 划 推 动 的 商业 分 型 芯片 发 展 , 已 经 促使 
遗传 定位 研究 由 最 初 的 几 个 至 数 千 个 分 子 标记 的 研究 发 展 到 当前 50 万 至 100 万 SNP 的 研究 
维度 , 极 大 地 推动 了 复 林 疾病 风险 定位 的 研究 ,遗传 分 析 已 经 进入 了 基因 组 范围 关联 研究 
( genome-wide association study, GWAS ) 阶段 。 目 前 ,基因 组 范围 天 联 研究 已 经 应 用 于 40 多 
种 复杂 疾病 , 绝 大 多 数 研 究 涉 及 SNP 数 目 已 经 超过 50 万 ,并 通过 CWAS 成 功 获 得 了 150 多 个 
致 病 基 因 。 这 些 疾病 基因 的 获得 对 于 复杂 疾病 ,特别 是 瘤 症 糖尿 病 ` 心 脏 病 等 常见 病 的 研 
究 提 供 了 大 量 的 有 用 信息 ,也 为 进一步 揭示 这 些 疾病 的 发 生机 制作 出 了 页 献 。 真 正 意义 上 
的 CWAS 开 始 于 2005 年 前 后 ,应 该 说 ,现在 还 只 是 它 的 起 步 阶 段 , 大 规模 的 CWAs 人 研究 还 在 酝 
酿 , 相 应 的 研究 策略 也 在 不 断 的 开发 。 

但 正如 上 文中 我 们 提 到 的 ,高 维度 的 SNP 数 据 也 给 统计 学 方法 带 来 了 很 大 的 压力 ,多 
重 检 验 问题 困扰 着 大 规模 的 遗传 定位 研究 。 目 前 ,基因 组 范围 关联 研究 主要 通过 两 个 条 
略 来 实现 风险 SNP 和 风险 基因 的 发 现 。 一 方面 ,采用 合并 不 同 实验 室 样本 数据 的 方法 , 通 
过 提高 饶 究 条 个 疾病 的 样本 量 或 SNP 密 度 来 加 大 风险 SNP 的 识别 水 平 , 即 我 们 和 党 说 的 meta 
分 析 方 法 ,并 且 成 功 应 用 于 乳腺 瘤 、 结 肠 况 和 2 型 糖尿 病 等 研究 中 。 男 一 方面 ,采用 候选 区 
域 精 细 定 位 的 方法 ,在 较 低 样本 量 情况 下 采用 基因 组 范围 天 联 分 析 获 得 候选 风险 区 域 , 缩 
小 范围 后 对 候选 区 域 加 大 样本 量 ,进行 精细 的 SNP 分 型 ,采用 多 轮 重 复 策略 ,最 终 获 得 高 显 
2E .高 精确 度 的 风险 位 点 (图 9-10 )。 这 些 策 略 的 实施 为 发 现 真 实 的 风险 SNP 提 供 了 可 靠 的 
保障 ,但 依然 存在 花费 大 、 效 率 低 的 缺点 。 

在 这 样 的 情况 下 ,人 们 逐渐 将 目光 从 统计 方法 研究 和 提高 统计 显 阁 性 角度 转移 到 关联 

分 析 结 果 的 信息 挖掘 上 , 称 之 为 第 二 代 关 联 分 析 策 略 。 第 二 代 关 联 分 析 策 略 将 关联 分 析 作 
为 疾病 风险 权重 ,期 望 便 助 于 已 知 的 通路 、 网 络 、 互 作 、 功 能 等 知识 进行 位 点 和 基因 层面 之 外 
的 更 高 层次 的 信息 发 现 。 
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图 9-10 精确 定位 策略 提高 关联 分 析 可 靠 性 


CWAS 研 究 从 全 基因 组 角度 进行 风险 SNP 的 筛选 ,实际 上 也 是 一 定单 位 点 关联 分 析 方 法 ,在 
一 定 程 度 上 不 足以 反映 真实 的 复杂 疾病 信息 ,获得 的 结果 一 方面 存在 很 高 的 假 阳 性 率 , 为 一 方 
面 不 同 实验 之 间 还 存在 低 重 复 率 的 问题 。 这 一 问题 在 meta 分 析 中 有 一 定 的 改观 ,当然 也 有 很 多 
学 者 试图 在 基因 组 范围 SNP 基 因 型 数据 中 运用 多 位 点 的 分 析 方 法 ,但 往往 由 于 极 高 的 计算 复杂 
度 而 很 难 获得 预期 的 效果 。 图 9-11 显 示 了 一 种 基于 基因 组 关联 分 析 方法 和 生物 学 网 络 上 下 文 
的 风险 通路 优化 算法 。(D 计 算 单 位 点 SNP 与 疾病 风险 值 ,并 将 基因 上 最 显著 的 SNP 关 联 p 值 的 人 负 
对 数 作为 该 基因 对 疾病 的 风险 值 ; @C 将 目前 已 知 的 人 类 生理 通路 中 不 同 路 径 和 位 置 基因 进行 
网 络 加 权 ; ) 以 加 权 的 生物 学 通路 作为 背景 信息 ,将 寓 关 联 权 重 的 基因 映射 到 通路 中 ,并 计算 
全 通路 与 疾病 之 间 的 风险 值 ,进行 风险 通路 优化 和 排 秩 。 这 种 方法 实际 上 考虑 到 了 复 琳 疾病 
本 身 存 在 的 复杂 疾病 的 多 基因 性 、 致 病 基因 微 效 性 和 和 致 病 基 因 之 间 的 相互 作用 ,利用 一 种 符 代 
的 方法 进行 复杂 疾病 的 多 位 点 分 析 , 在 一 定 程度 上 避免 了 多 重 检 验 校 正和 影响 ,提高 了 实验 的 
重复 率 ,同时 也 有 利于 从 通路 的 角度 深入 的 了 解 复杂 疾病 病因 学 ,高 效 发 现 疾病 关联 基因 。 当 
然 ,这 种 方法 也 受到 现 有 已 知 通 路 信息 不 全 ,依赖 于 单位 点 关联 分 析 方 法 存在 的 随机 性 影响 。 
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图 9-11 基于 关联 分 析 的 复杂 疾病 风险 通路 优化 方法 
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作为 一 种 更 为 优化 的 方法 ,可 以 从 已 知 的 蛋白 质 互 作 网 络 信息 出 发 ,来 构建 一 个 更 为 完 
善 的 基因 与 基因 之 间 的 先 验 互 作 集 (潜在 的 通路 背景 基因 集 ), 将 单 基因 上 多 个 SNP 与 疾病 之 
间 的 关联 性 赋予 基因 作为 基因 与 疾病 之 间 的 风险 性 ,并 将 基因 风险 映射 到 互 作 网 络 中 ,利用 
相应 的 网 络 分 析 方 法 ,对 原 有 的 开放 性 网 络 加 入 组 织 特异 性 、 细 胞 定位 、 生 物 功能 等 限制 性 
条 件 , 进 行 更 为 可 徘 的 疾病 相关 的 子 网 第 选 。 同 时 ,也 可 以 充分 利用 现 有 的 单 通 量 生物 实验 
获得 的 成 果 , 加 入 先 验 疾病 研究 基因 集 , 诱 导 疾 病 相关 子 网 的 提取 。 这 可 以 有 效 的 利用 人 们 
对 疾病 、 人 类 基因 互 作 关 系 及 其 他 成 熟 的 研究 结 霖 ,进行 比较 全 面 的 复 林 疾病 潜在 疾病 通路 
的 发 现 。 如 果 能 够 进一步 引入 代谢 子 、 遗 传 调控 等 因素 ,有 可 能 会 从 更 为 科学 的 角度 提升 基 
FSNPH EARP n] ETE; 

这 样 的 策略 不 仅 坚 持 了 疾病 基因 层面 的 发 现 ,同时 获得 的 结果 还 能 够 从 细胞 过 程 和 机 
制 的 角度 来 解释 疾病 的 发 生 , 相 比 原 有 传统 关联 分 析 方 法 ,有 着 不 言 而 喻 的 优势 。 但 由 于 作 
为 研究 基础 的 高 通 量 先 验 知 识 本 身 还 存在 不 完整 和 假 阳 性 ,因此 第 二 代 关 联 分 析 策 略 还 处 
于 起 步 和 摸索 阶段 ,更 为 系统 的 方法 研究 还 存在 很 大 的 空间 和 应 用 价值 。 


二 、 表 型 性 状 的 分 子 遗 传 学 >>> 


人 与 人 之 间 形 态 、 生 理 指标 ,行为 及 疾病 易 感 等 表 型 差异 共同 构成 人 类 本 和 号 的 多 样 性 。 
而 这 些 复杂 表 型 的 变化 往往 是 由 潜在 的 多 位 点 遗传 复杂 性 ,及 其 遗传 等 位 与 个 体 所 处 环境 
之 间 的 不 同 反应 造成 的 。 从 DNA 变 异 与 表 型 差异 之 间 的 相关 性 研究 的 角度 ,讨论 数量 或 复 
杂 性 状 产生 的 原因 对 于 预测 疾病 发 病 风险 和 个 性 化 治疗 有 重要 的 意义 。 这 里 ,我 们 将 与 某 
些 数 量 或 复杂 性 状 形 成 相关 的 DNA 区 域 称 为 决定 这 个 性 状 的 数量 性 状 位 点 ( quantitative trait 
loci, QTL )。 早 在 20 世 纪 早 期 ,人 们 就 开始 了 对 数量 性 状 的 研究 ,并 采用 遗传 多 态 标 记 与 QTL 
连锁 分 析 的 思想 对 数量 性 状 进 行 遗 传 定 位 。 到 20 世 纪 80 年 代 , 数 量 性 状 研 究 得 到 了 空前 的 
发 展 , 但 是 遗传 多 态 标记 的 缺乏 大 大 限制 了 它 的 进一步 发 展 。 直 到 最 近 几 年 , 随 着 测序 技术 
的 发 明和 人 类 单 体型 计划 的 实施 和 完成 ,大 量 遗 传 标记 被 发 现 ,而 且 分 型 成 本 不 断 降 低 , 基 
因 组 范围 数量 性 状 的 QTL 定 位 研究 迅速 发 展 ,并 广泛 应 用 于 人 类 性 状 和 疾病 研究 领域 。 

经 过 二 十 多 年 的 努力 ,我 们 已 经 能 够 从 候选 基因 ,不同 遗传 背景 下 的 等 位 分 离 . 生 态 与 
环境 对 表 型 影响 功能 等 位 效应 的 分 子 基础 群体 致 病 等 位 频率 等 方面 对 遗传 变异 与 数量 性 
状 形成 之 进行 解释 。 某 些 研 究 通过 QTL 定 位 发 现 了 新 的 疾病 或 复杂 性 状 位 点 ,并 为 揭示 疾 
病 生 物 学 机 制 提 供 新 的 视野 ,但 明确 指出 导致 表 型 和 疾病 形成 的 变异 ,只 占 全 部 表 型 决定 子 
的 一 小 部 分 ,通过 QTL 定 位 直接 发 现 表 型 相关 的 基因 更 是 少 之 又 少 。 不 过 ,这 一 情况 并 不 取 
决 于 目前 对 QTL 定 位 的 研究 方法 ,而 是 与 现在 的 DNA 和 RNA 的 测序 水 平 相 关 的 ,将 会 伴随 新 
的 高 通 量 快速 .低廉 的 测序 技术 的 产生 而 取得 新 的 突破 。 

与 质量 性 状 相 比 ,数量 性 状 的 遗传 研究 要 困难 得 多 , 主要 是 由 于 质量 性 状 可 以 通过 表 型 
来 辨别 ,而 数量 性 状 表 型 上 的 差异 不 明显 ,基因 型 与 表 型 间 难 以 找到 准确 的 对 应 关系 。 而 由 
于 人 类 群体 不 可 能 像 在 动 植物 中 进行 杂交 实验 ,所 以 对 人 类 群体 的 数量 性 状 定位 更 加 困难 。 
无 论 是 在 人 类 还 是 在 动 植物 中 ,数量 性 状 定位 的 基本 原理 都 是 数量 性 状 位 点 与 可 见 的 分 型 
分 子 标记 之 间 存 在 遗传 连锁 。 如 果 某 个 QTL 与 某 个 分 子 标记 (SNP ) 相 联 系 ,在 此 位 点 上 具 
有 不 同等 位 的 个 体 具 有 不 同 的 数量 性 状 平 均值 。 基 于 这 样 的 思考 ,在 人 类 中 我 们 虽然 不 能 
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进行 特定 的 位 点 杂交 实验 ,但 是 可 以 通过 遗体 遗传 学 方法 进行 位 点 与 数量 表 型 均值 之 间 的 
相关 性 检验 ,从 而 完成 数量 性 状 定位 。 常 用 的 数量 性 状 定位 分 子 标记 除 SNP 外 ,还 有 插入 / 删 
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图 9-12 数量 性 状 分 析 流程 图 


显著 相关 位 点 的 检测 和 原因 基因 克隆 是 数量 性 状 定位 的 两 个 要 点 。 图 9-12 显 示 了 基于 
SNP 的 QTL 分 析 基 本 过 程 。 在 人 类 样本 分 析 中 ,由 于 家 系 信 息 难 以 获得 ,而 主要 通过 关联 分 
析 的 方法 进行 检验 (图 9-12 右 侧 ), 而 相对 的 , 动 植物 研究 中 可 以 方便 地 进行 杂交 实验 ,一 般 
采用 连锁 分 析 的 方法 (图 9-12 左 侧 )。 

人 类 遗传 学 中 进行 数量 性 状 定位 最 常用 的 方法 是 线性 回归 和 方差 分 析 。 方 差分 析 进 行 
数量 性 状 定位 类 似 于 自由 度 为 2 的 皮尔 森 检验 ,这 里 ,将 0 假设 定义 为 数量 性 状 与 NP 基因 型 
没有 相关 性 , 备 选 假设 为 有 相关 性 。 而 线性 回归 方法 用 于 数量 性 状 研究 主要 考虑 SNP 基 因 
型 与 数量 性 状 平均 值 之 间 的 关系 ,自由 度 为 1。 两 种 情况 下 均 要 求 数量 性 状 呈 近似 正 态 分 布 ， 
如 果 分 布 有 偏差 ,可 以 考虑 进行 对 数 转换 。 


三 、 复 杂 疾 病 的 系统 遗传 学 》》， 


对 于 常见 的 数量 性 状 ,我 们 可 以 很 自然 地 联系 到 号 高 .体重 等 看 得 见 的 研究 对 象 , 除 此 之 
外 ,还 能 够 想到 血压 水 平 . 血 糖水 平等 与 人 体 健康 检查 有 关 的 症状 反映 或 生化 指标 。 随 着 SNP 
分 型 技术 和 基因 表达 作 谱 技术 的 发 展 , 越 来 越 多 的 研究 把 目标 锁定 在 人 类 基因 表达 调控 子 的 
发 现 上 ,通过 对 同 质 性 样本 的 SNP 分 型 及 基因 表达 绘制 图 谱 ,期 望 建立 分 子 标记 与 基因 表达 之 
间 的 联系 ,这 一 过 程 被 称 作 表达 数量 性 状 位 点 ( expression quantitative trait loci, eQTL ) 定位 。2002 
E, Rachel 等 人 利用 芯片 表达 技术 与 关联 分 析 相 结合 的 方法 研究 杂交 酵母 的 遗传 变异 与 基因 表 
达 之 间 的 相关 性 。 发 现 众多 的 基因 表达 是 受 遗 传 变异 影响 的 ,不 同 的 遗传 等 位 有 可 能 叶 致 不 同 
的 表达 效果 。 这 为 从 遗传 角度 揭示 表 型 形成 提供 了 一 个 有 利 的 证 据 。2004 年 , Michael 等 人 将 
eQTL 研 究 引 入 到 人 类 基因 组 研究 领域 ,通过 对 14 个 家 系 196 个 个 体 的 2980 个 SNP 与 3553 个 转录 子 
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表达 的 测定 ,发 现 170 多 个 SNP 与 之 邻近 的 基因 表达 之 间 存 在 相关 性 ,并 把 这 种 关系 称 之 为 Cis 关 
联 ,此 外 ,还 存在 众多 的 远 距 离 的 SNP 与 基因 表达 之 间 的 相关 性 ( Trans ), AREKAK 
表达 受到 了 广泛 的 遗传 调控 ,而且 可 以 通过 数量 性 状 定位 的 方法 将 遗传 变异 和 表达 进行 关联 。 

目前 ,与 基因 组 范围 关联 研究 发 展 相 适应 , eQTL 研 究 已 经 从 最 初 的 数 以 千 计 的 SNP 与 
基因 表达 规模 发 展 到 数 以 十 万 计 的 SNP 和 2 万 多 基因 表达 之 间 的 关系 ,而 且 从 基于 家 系 和 模 
式 生物 的 研究 逐渐 过 渡 到 基于 不 相关 个 体 的 研究 ,发 现 的 人 类 遗传 与 表达 之 间 的 天 系 也 越 
来 越 多 。2007 年 10 月 ,《 Nature Genetics ) JE 2% A 3&3 SC ETT A 2S d D] ZH fà HS] PY eQTLOt 
5t. Barbara“ A JE TF HapMap $x ,进一步 测定 14 000 个 基因 的 表达 情况 ,进行 了 四 个 群体 的 
eQTL 研 究 , 从 群体 比较 方面 揭示 遗传 变异 调控 基因 表达 的 群体 差异 性 。Harald 等 人 将 基于 
淋巴 细胞 的 研究 样本 量 提高 到 1240 个 个 体 ,研究 的 基因 数 高 达 1.9 万 。 而 Anna 等 人 的 研究 首 
次 将 疾病 因素 引入 到 基因 组 范围 关联 研究 中 ,通过 研究 哮喘 家 系 中 的 遗传 变异 与 基因 表达 
之 间 的 关系 ,提出 可 能 实现 联合 eQTL 与 疾病 的 研究 , 易 化 关联 人 研究 中 的 功能 元 件 提取 。2008 
年 3 月 Valur 等 人 联合 基因 表达 、 遗 传 变异 及 临床 肥胖 指标 进行 合并 的 QTL 人 研究 进行 疾病 相关 
的 遗传 子 及 功能 元 件 识 别 ,并 在 此 基础 上 提出 从 分 子 网 络 的 角度 研究 复杂 疾病 。 

表达 数量 性 状 定位 的 提出 为 生物 医学 研究 展开 了 更 为 广阔 的 视野 ,也 为 人 DNA 一 表达 一 
分 子 表 型 一 性 状 的 研究 提供 了 可 能 。 在 这 样 的 背景 下 ,科学 家 们 提出 系统 遗传 学 ( systems 
genetics ) 概念 , 即 希 望 从 全 面 的 生物 学 资源 出 发 ,研究 遗传 因素 对 人 体 生理 病理 的 影响 。 
Trudy 等 人 在 此 基础 上 提出 未 来 的 遗传 定位 研究 的 着 眼 点 (图 9-13 ), 期 望 借助 系统 遗传 学 工 
具 实 现 从 分 子 到 整体 的 全 面 了 解 。 而 表达 与 标记 、 表 达 与 表达 之 间 的 相关 又 能 癌 网 络 的 层 
面 进行 转化 ,对 于 获取 生理 学 或 病理 学 功能 信息 将 产生 直接 而 有 效 的 影响 。 








图 9-13 系统 遗传 学 思想 构建 遗传 调控 网 络 揭示 性 状 形成 机 制 
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图 9-13A 中 显示 了 广泛 应 用 的 纯 合 基因 型 与 数量 性 状 平均 值 线 性 回归 方法 获得 与 性 状 
相关 的 遗传 标记 (SNP ) 的 过 程 , 即 我 们 常 说 的 QTL 定 位 ,将 一 个 宏观 的 指标 与 分 子 层面 的 标 
记 相 互联 系 。B 图 展示 的 是 基因 表达 与 NP 之 间 的 关联 分 析 过 程 , 即 上 文 讲 到 的 eQTL 定 位 ， 
从 而 捕获 影响 基因 表达 的 SNP, 这 些 SNP 我 们 称 为 调控 SNP, 这 个 过 程 将 基因 表达 和 SNP 进 行 
关联 。C 图 进行 的 是 基因 共 表 达 分 析 。 通 过 B、C 两 图 可 以 构建 出 一 个 基于 遗传 分 析 的 调控 
网 络 , 而 由 于 我 们 已 经 在 SNP 与 表 型 之 间 建 立 起 联系 ,借助 分 子 网 络 的 分 析 手 段 ,能 够 指导 
我 们 发 现 影响 性 状 形成 的 基因 集 ,甚至 指导 我 们 发 现 与 性 状 发 生 密 切 相 关 的 网 络 模块 或 通 
路 。 目 前 ,由 于 同时 进行 基因 型 .基因 表达 、 人 类 表 型 的 测定 和 收集 过 程 耗 时 、 耗 力 , 而 且 龙 
费 巨 大 ,在 一 定 程度 上 限制 了 系统 遗传 学 的 开展 ,但 随 着 技术 的 革新 ,这 样 的 一 种 研究 思想 
将 逐步 成 为 人 类 生理 病理 研究 的 必由之路 。 
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Section 4 Important Tools in SNP Studies 


一 、Plink 软 件 包 与 基因 互 作 >> 


PLINK( http: //pngu.mgh.harvard.edu/~purcell/plink/contact.shtml#cite ) 是 一 个 免费 、 开 
源 的 全 基因 组 关联 分 析 工 具 集 ,由 在 用 有 效 地 计算 方式 进 行 第 规 的 及 大 规模 的 遗传 分 析 。 
PLINK 的 主要 功能 包括 : 数据 处 理 和 统计 描述 、 群 体 分 层 检测 .关联 分 析 、IBD 佑 计 及 上 位 效 
用 检测 。PLINK 一 般 只 适用 于 群体 数据 ,不 适用 于 家 系数 据 。 本 节 中 以 上 位 效应 为 例 介绍 
PLINK., 

PLINK 用 于 检测 SNP-SNP 间 上 位 效应 所 用 的 默认 检验 模型 主要 有 线性 回归 和 罗杰斯 特 
回归 两 种 ,取决 于 表 型 是 数量 性 状 还 是 二 值 性 状 。 基 于 每 一 个 A 和 B 的 等 位 基因 情况 ,建立 
一 个 模型 : 

Y~b)+b,A+b,B+b,AB+e ( 9-4 ) 

互 作 检 验 基于 系数 b;, 因 此 检验 过 程 中 只 是 考虑 等 位 基因 之 则 的 上 位 效用 ,不 考虑 协 变 
量 。SNP-SNP 上 位 效应 检验 可 以 在 病例 /对 照样 本 中 进行 ,也 可 以 只 在 疾病 样本 检测 (也 叫 
做 case-only )。 在 病例 /对 照样 本 中 检测 SNPxSNP 上 位 效应 ,用 以 下 命令 


plink ——file mydaya —-epistasis 





-epistasis 命 令 用 来 检验 大 量 的 SNP-SNP 互 作 , 但 大 部 分 互 作 没有 显赫 意义 或 不 符合 用 
户 要 求 ,虽然 可 能 一 次 操作 会 进行 数 百 万 或 数 十 亿 行 的 计算 ,但 默认 只 输出 p< 10 的 互 作 , 或 者 
用 一 epil 参 数 设 定 。 如 果 数 据 集 比 较 小 ,期 望 输 出 所 有 的 检验 结果 ,可 以 用 --epil 参 数 测 定 , 如 : 
plink ——file mydata —~epistasis ——epil 0.0001 
同时 也 可 以 通过 命令 设 定 进 行 检验 的 SNP 集 合 ,相应 的 模式 如 下 : 


任意 SNP 之 间 : plink --file mydata ——epistasis 
集合 1 内 部 : plink —file mydata ——epistasis ——set-test ——set epi. set 





集合 1- 全 部 : plink --file mydata ——epistasis ——set-test ——set epi. set --set—by—all 





集合 1- 集 合 2: plink ——file mydata ——epistasis ——set-test ——set epi. set 


epi.set 可 以 只 含有 一 个 数据 集 ,也 可 以 包含 有 多 个 数据 集 。 对 于 每 一 个 数据 集 开 头 有 效 
据 集 名 称 ,数据 结尾 有 END 符 号。 
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在 病例 样本 中 检测 SNP-SNP 上 位 效应 ,有 两 种 近似 但 更 快速 的 参数 命令 : --fast- 
epistasis 和 --case-only, 用 以 下 命令 执行 : 








plink ——file mydata —-fast-epistasis ——case-only 


目前 ,在 case-only 分 析 中 ,默认 状态 下 只 考虑 距离 1Mb 以 上 或 不 在 同一 条 染色 体 上 的 
SNP, 其 他 SNP 上 位 效应 计算 ,可 以 通过 -gap 参 数 设 定 SNP 之 间 的 距离 ,如 下 : 


plink ——file mydata —-fast-epistasis ——case—only ——gap 5000 





-gap 是 一 个 很 重要 的 参数 ,但 使 用 时 应 当 慎 重 ,因为 用 case-only 检 验 上 位 效应 的 两 个 
SNPs 在 群体 中 应 六 处 于 连锁 平衡 状态 
通过 以 上 的 命令 ,我们 已 经 了 解 plink 计 算 上 位 效应 的 基本 方法 , 表 9-4 中 列 出 了 计算 上 


位 效应 中 常用 的 命令 和 默认 参数。 
表 9-4 ”Plink 计 算 上 位 效应 的 参数 列表 

命令 Mabe $$ 描述 
-=-file 指定 .ped 和 .map 文 件 
——epistasis 进行 SNP 之 间 的 上 位 效应 分 析 
~—fast—epistasis 快速 进行 任意 两 个 SNP 之 间 的 上 位 效应 计算 
一 -twolocus SNP SNP 显示 两 个 SNP 互 作 列表 
--case-only 只 能 疾病 样本 进行 上 位 效应 计算 
——gap 1000 限定 距离 的 SNP 上 位 效应 计算 
——epil 0.0001 输出 上 位 效应 计算 z 值 小 于 国 值 的 对 
——set—by—all 检验 集合 中 的 SNP 上 位 效应 
——nop 进行 快速 筛选 ,不 计算 P 值 
——genepi 进行 基于 基因 的 上 位 效应 计算 


Plink 的 输入 文件 有 两 个 ,分 别 以 .ped 和 .map 作 为 后 级 。PED 和 MAP 文 件 是 用 空格 或 Tab 
分 割 的 文件 , PED 文 件 的 每 一 行 代表 一 个 样本 描述 ,并 且 前 六 列 描述 信息 是 必需 的 ,如 缺失 
应 当 用 0 代替 ,但 必须 含有 表 型 信息 。MAP 文 件 的 每 一 行 是 一 个 SNP 的 染色 体 定 位 ( 表 9-5 )。 


表 9-5 PED 和 MAP 文 件 说 明 


eo ne n E MAPS 
第 1 列 个 体 所 在 家 系 ID' SNP 所 在 染色 体 * 
第 2 列 个 体 在 家 系 中 的 编号 SNP 标 识 各 
第 3 列 个 体 对 应 的 父亲 编号 SNP 的 遗传 距离 
第 4 列 个 体 对 应 的 母亲 编号 SNP 的 绝对 位 置 
第 5 列 性 别 
第 6 列 表 型 状态 ' 


注 : al 代表 男性 ,2 代表 女性 ,其 他 标记 表明 性 别 未 知 , b 分 别 使 用 1-22 数 字 , X, Y 表 ,0 代表 所 在 染色 体 
未 知 ,C1 表 示 为 对 照 个 体 ,2 表示 为 疾病 个 体 。 
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& 出 文件 包括 plink.epi.cc 和 plink.epi.cc.summary。plink.epi.cc 文 件 显 示 以 下 信息 : 


CHRI ,第 一 个 SNP 所 在 的 染色 体 ; DSNPI ,第 一 个 SNP 识 别 符 ; (CHR2, 互 作 的 SNP 所 在 的 
染色 体 ; (DOSNP2 , 互 作 的 SNP 识 别 符 ; (DOR_INT ,两 位 点 互 作 的 ood ratio 值 ; @STAT, 自由 度 
为 1 的 卡 方 检验 统计 量 ; OP, 显著 性 水 平 。plink.epi.cc.summary 文 件 显示 以 下 信息 : OCHR, 


染色 体 编 号 ; QSNP, SNP 标 识 符 ; GN. SIG, 上 位 效应 的 显著 性 检验 (p<="--epi2" 国 值 ); 


ON_TOT ,可 执行 检验 ; (BPROP, 可 执行 检验 的 百分数 ; (OBEST_CHISQ ,与 互 作 的 SNP 检 验 
结果 ; COBEST. CHR , 互 作 的 SNP 染 色 体 编号 ; B)BEST_SNP , 互 作 的 SNP 标 识 符 。 


二 基因组 范围 关联 研究 软件 包 SNPtest > > 


SNPtest( http: //www.stats.ox.ac.uk/967 Emarchini/software/gwas/snptest.html ) 是 一 个 强大 的 
基因 组 范围 关联 研究 软件 包 , 它 可 以 对 单个 SNP 关 联 进行 频率 检验 或 贝 叶 斯 检验 ,值得 注意 
的 是 , 它 的 实施 只 适合 于 二 进 制 (病例 对 照 ) 性 状 , 但 该 软件 可 以 根据 任意 的 协 变量 集 进 行 设 
置 ,并 且 能 够 考虑 基因 型 的 不 确定 情况 。 目 前 ,被 广泛 应 用 的 WTCCC 中 ,7 套 复杂 疾病 的 基 
因 组 范围 关联 研究 ,就 是 采用 该 软件 进行 的 数据 分 析 。SNPtest 同 时 提供 了 2000 个 个 体 中 100 
个 SNP 的 疾病 -对 照 示 例文 件 。 


(一 ) 软件 的 输入 文件 


SNPtest 允 许 分 析 多 组 个 体 。 每 组 数据 存 为 两 个 文件 : 第 一 个 文件 为 样本 文件 ,存储 的 是 
ID 号 .关联 协 变量 和 每 组 个 体 的 表 型 信息 ; 第 二 个 文件 为 基因 型 文件 ,存储 的 是 每 组 基因 型 
数据 。 软 件 当 中 包括 的 例子 数据 集中 每 组 的 样本 和 基因 型 文件 分 别 有 符 合 要 求 的 _sample 
和 _gen 样 文件 。 

基因 型 文件 格式 ( gen ): 该 文件 每 行 表 示 一 个 SNP 信 息 , 前 5 列 分 别 为 : SNP ID, RS ID, 
SNP 碱 基 对 位 置 两 个 等 位 基因 ( M、N ); 接 下 来 的 3 个 数字 表示 三 种 基因 型 MM、MN、NN 在 
第 一 个 个 体 中 出 现 的 概率 值 ,再 接 下 来 的 3 个 数字 表示 三 种 基因 型 在 第 二 个 个 体 中 出 现 的 概 
率 , 以 此 类 推 。 并 且 个 体 的 顺序 应 该 与 _sample 文 件 中 个 体 的 顺序 相同 。 同 时 ,考虑 到 缺失 
基因 型 情况 ,因此 基因 型 概率 之 和 不 必 均 为 1。 当 对 多 组 执行 SNPtest 时 ,我 们 假设 每 组 数据 
的 SNP 集 大 小 相同 并 且 这 些 SNP 在 每 组 的 基因 型 文件 中 的 存储 顺序 相同 。 

样本 文件 格式 ( sample ): 该 文件 包括 三 个 部 分 : 第 一 行 , 表 示 每 一 列 的 名 字 ; 第 二 行 ， 
每 一 列 所 存储 变量 的 类 型 ; 接 下 来 的 每 行 表 示 一 个 个 体 的 详细 相关 信息 。 例 如 ; 


missing cov ] cov 2 cov 3 cov 4 phenotype. 1 
0 l 2 3 3 p 
0.007 2 0.0019 -0.008 1.233 
0.009 2 0.0022 -0.001 6.234 
0.005 2 0.0025 0.0028 6.121 
l 0.0017 -0.011 3.234 
2 -0.012 0.0236 2.786 


l 
l 
] 
0.007 Z 
0.004 3 





第 一 行 分 别 表示 : 个 体 的 第 一 个 ID 号 .第 二 个 ID 号 .个体 中 缺失 值 的 比例 ,这 三 个 是 必须 


Wy 
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要 有 的 , 接 下 来 的 分 别 表示 变量 的 名 字 。 上 面 的 例子 中 ,有 4 个 协 变 量 cov_1, cov 2, cov 3, 
cov_4 和 1 个 表 型 名 字 phenotype_1.。 
第 二 行 表示 每 列 中 变量 的 类 型 ,前 3 个 设置 为 0, 接 下 来 的 位 置 应 遵循 下 面 的 规则 : 














离散 的 协 变 量 (用 正 整 数 表 示 ), 对 关联 进行 Mantel-Haentzel 检 验 
离散 的 协 变量 (用 正 整 数 表示 ), 对 关联 进行 跨 群 体 的 整合 检验 


连续 协 变 量 
表 型 





(二 ) 软件 包 中 的 分 析 模 块 


1. 数据 的 统计 描述 SNPTEST 最 基本 的 用 途 是 对 SNP 数 据 基本 信息 进行 描述 ,生成 包 
插 基 因 型 数目 、 等 位 基因 频率 、SNP 缺 失 数 据 比 例 和 优势 比 等 的 描述 信息 ,这 个 功能 用 以 下 
命令 行 可 以 实现 : 


. /snptest —cases . /example/cases. gen . /example/cases. sample 





—controls . /example/controls. gen . /example/controls. sample —o . /example/ex. out 


2. 压缩 文件 输入 命令 SNPtest 文 持 压缩 文件 , 当 基 因 型 文件 相当 大 的 时 候 会 以 压缩 文 
件 的 形式 给 出 ,那么 在 SNPTEST 中 有 一 个 命令 -gen_gz 就 表示 输入 的 文件 为 压缩 形式 ,在 命 
令 行 中 输入 ; 


. /snptest —gen_gz —cases. /example/cases. gen. gz. /example/cases. sample 





—controls. /example/controls. gen. gz. /example/controls. sample —o . /example/ex. out 


会 输出 同上 面 所 介绍 的 相同 的 结果 文件 ./example/ex.out。 

3. 计算 数据 缺失 率 ”样本 文件 的 第 三 列 包 含 每 个 个 体 的 缺失 数据 比例 。 这 有 利于 滤 除 
那些 缺失 数据 率 高 的 个 体 ,命令 -create_misske 可 用 来 计算 形成 样本 文件 所 需 的 缺失 数据 率 。 
例如 ,计算 第 一 个 对 照 组 的 缺失 数据 率 , 可 以 使 用 如 下 的 命令 行 : 


. /snptest —create miss. /example/controls. gen —o. /example/ex. out 


4. 排除 SNP 及 (或 ) 个 体 ”排除 SNP: 命令 -exclude_snps 可 被 用 来 指定 一 个 文件 ,该 文件 
中 包含 一 列 分 析 当 中 应 当 排 除 的 SNP。 例 如 ,文件 Jexample/snps.list 包 含 了 一 列 example 文 件 
数据 的 前 10 个 SNP 编 号 ,为 了 从 分 析 当 中 排除 这 些 SNP 我 们 使 用 下 面 的 命令 行 : 





. /Snptest —cases. /example/cases.gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out 





—-exclude snps. /example/snps. list 


另外 ,程序 还 提供 命令 -snpid 来 对 单个 的 SNP 执 行 此 功能 。 例 如 ,对 编号 为 61 的 SNP 运 行 
SNPTEST ,我 们 用 下 面 的 命令 行 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 





—controls. /example/controls. gen /example/controls. sample —o. /example/ex. out —snpid 61 
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排除 个 体 : 命令 -exclude_samples 可 被 用 来 指定 一 个 文件 ,该 文件 中 包含 一 列 分 析 当 中 
应 当 排 除 的 个 体 。 例 如 ,文件 .Jexample/samples.list 包 含 ee 
ID 号 ,为 了 从 分 析 当 中 排除 这 些 个 体 我 们 用 下 面 的 命令 和 











. /snptest -cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —exclude 


samples. /example/samples. list 


fii -miss ra apelin ghia 大 到 茶 一 水 平 的 个 体 。 例 如 ,为 了 指 
定 最 大 缺失 数据 比例 为 1% ,我 们 利用 下 面 的 命令 和 


. /snptest -cases. /example/cases. gen. /example/cases. sample 





—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —miss_ 


thresh 0.01 


5. 哈代 温 伯 格 平衡 检验 ”命令 -hwe 表 示 在 输出 结果 中 显示 出 每 个 SNP 的 HWE 检 验 结 
果 。 例如 : 





. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out -hwe 





将 产生 一 个 输出 文件 ./example/ex.out, 该 文件 的 列 包含 的 是 对 每 个 对 照 组 的 精确 HWE 检 
验 的 p 值 对 照 组 的 整合 集 、 每 个 病例 组 HWE 检 验 p 值 病例 组 整合 集 。 

6. 基本 的 关联 检验 ”病例 对 照 检验 : 对 加 性 、 显 性 、 隐 性 、 常 规 及 杂 合 子 5 个 模型 的 关联 

行 标准 频率 病例 对 照 检验 ,可 由 命令 -frequentist 来 执行 。 例 如 ,下 面 的 命令 行 被 用 来 对 这 
E 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls.gen. /example/controls. sample —o. /example/ex. out —frequentist 


12345 





5 种 不 同 的 模型 编号 为 : 1- 加 性 模型 ,2- 显 性 模型 ,3- 隐 性 模型 ,4- 常 规模 型 ,5- 杂 合 于 
模型 。 加 性 模型 是 对 加 性 遗传 效应 进行 Cochran-Armitage 检 测 。 显 性 模型 和 隐 性 模型 是 将 
AA 基 因 型 当 作 起 点 基因 型 。 常 规模 型 则 是 对 关联 进行 自由 度 为 2 的 标准 检验 。 

输出 文件 为 ./example/ex.out, 包 含 了 每 个 SNP 所 有 如 前 面 描述 的 概要 信息 。 四 个 检验 的 p 
(5i ^) SIZE frequentist_add, frequentist_dom, frequentist_rec , frequentist_gen and frequentist_het 列 
中 给 出 。 

数量 性 状 检验 : 对 SNP 与 一 个 数量 性 状 关联 的 检验 可 以 用 -qt 命令 来 执行 。 对 每 个 SNP 
的 关联 该 命令 是 通过 F- 检 验 来 执行 的 。 命 令 -frequentist 被 用 来 指定 每 个 SNP 的 基因 型 编码 。 
每 个 个 体 的 基因 型 必须 出 现在 样本 文件 当中 。 在 默认 情况 下 ,检验 将 使 用 样本 文件 当中 的 
第 一 个 基因 型 。 用 户 应 当 用 -pheno 这 一 命令 来 指定 你 所 要 检测 的 表 型 。 例 如 下 面 的 命令 行 ， 
是 对 例子 数据 集中 的 第 二 个 表 型 在 5 个 不 同 模型 中 进行 检验 : 


. /snptest —cases. /example/cases. gen. /example/cases.sample 


-controls. /example/controls.gen. /example/controls. sample -o. /example/ex. out -qt -pheno 


2 -frequentist 1 234 5 





—400 BAR ”复杂 疾病 的 系统 遗传 学 分 析 




















TT JOFTRA OOAIOCTIMG IAIL VOIC A Sr V MICmAQr 
C “HAPT ERS SYSTEM GENETICS ANALYSIS OF COMPLEX DISEASE 


7. 协 变量 命令 -cov 被 用 于 存在 协 变量 时 进行 关联 的 检测 。 例 如 ,在 考虑 到 样本 文件 
中 的 第 二 个 协 变量 时 对 一 个 加 性 模型 进行 关联 检测 时 ,我 们 可 用 下 面 的 命令 行 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —frequentist 





| -cov 2 


产生 输出 文件 ./example/ex.out ,该 文件 包含 了 一 个 表 头 frequentist_add_cov_1 的 列 ,包含 
了 基于 协 变量 检测 得 到 的 p 值 。 
s. 贝 叶 斯 检验 ”用 命令 -bayesian 可 对 5 个 标准 遗传 模型 进行 贝 叶 斯 检验 。 例 如 ,下 面 的 


A^4— 


命令 行 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


-controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —bayesian 1 


2345 





产生 一 个 输出 文件 ,包含 以 下 几 列 信息 : bayesian add, bayesian dom, bayesian rec, bayesian_ 
gen and bayesian het. 
9. 考虑 基因 型 不 确定 的 情况 ”改变 所 需 国 值 : FEAR AY BRA ON A] A — 7 E (EDITAE AE 
型 命名 为 AA、AB、BB 或 NULL。 对 关联 做 频率 和 贝 叶 斯 检验 将 基于 这 些 默 认 国 值 基因 型 
来 执行 。 如 果 基 因 型 大 于 所 需 国 值 那么 我 们 选择 最 大 概率 的 基因 型 ,否则 引入 NULL 基 因 型 。 
默认 阔 值 为 0.9, 此 效 值 是 可 改变 的 ,用 命令 -call_thresh 来 改变 。 例 如 ,为 了 产生 一 个 基于 效 
值 为 0.95 的 基本 检验 集 ,我 们 执行 下 面 的 命令 行 


. /snptest-cases. /example/cases. gen. /example/cases. sample 


-controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —call_ 


thresh 0.95 —frequentist 1 2 3 4 


频率 检验 : 命令 -proper 可 被 用 来 考虑 基因 型 不 确定 的 情况 。 DI fag 
数据 可 能 性 的 统计 学 检验 。 该 命令 与 -cov、-qt 两 个 命令 一 起 用 。 例 如 ,下 面 的 命令 


. /Snptest —cases. /example/cases. gen. /example/cases. sample 





-controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —frequentist 





| -proper 


此 命令 产生 一 个 输出 文件 ,包含 以 下 几 列 信息 : frequentist, add, proper, frequentist_add_ 
proper info, frequentist add. proper, beta. 1 , frequentist, add. proper se 1. 
贝 叶 斯 检验 : 在 考虑 基因 型 不 确定 的 情况 下 计算 贝 叶 斯 因子 时 ,是 通过 基于 基因 型 概 
率 抽 取 基 因 型 使 贝斯 因子 结果 平均 化 。 ed sda 了 应 该 用 到 varum 型 样本 数目 。 
-certainty_thresh 命 令 可 用 来 指定 在 哪个 SNP 中 进行 了 抽样 。 例 如 下 面 的 命令 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —bayesian 1 





-nsamp 100 —certainty. thresh 0.95 


此 命令 产生 了 一 个 列 为 bayesian_add_samp 的 输出 文件 ,表示 在 加 性 模型 中 样本 均值 为 
log 10 贝 叶 斯 因子 。 | 
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三 、 连 锁 分 析 和 数量 性 状 分 析 工 具 Merlin >> 


Merlin( http: //www.sph.umich.edu/csg/abecasis/Merlin/index.html ) Z&— AA] Ff ii iot f 
进行 系谱 分 析 的 软件 包 。Merlin 利 用 稀疏 树 来 代表 系谱 中 的 基因 , 它 是 最 快 的 谱系 分 析 软 件 
包 之 一 。Merlin 能 够 被 用 于 参数 或 非 参 数 的 连锁 分 析 , 以 回归 为 基础 的 连锁 分 析 或 对 数量 性 
状 的 关联 分 析 , IBD 和 亲属 关系 的 估计 , 单 体型 分 析 , 错 误 检 测 和 模拟 分 析 。 在 大 部 分 分 析 
中 标记 之 间 可 以 存在 连锁 不 平衡 状态 ,并 且 能 够 比 其 他 的 系谱 分 析 软 件 包 处 理 更 多 的 标记 。 

Merlin 进 行 普 志 的 家 系 分 析 。 输 入 文件 描述 数据 集中 个 体 之 间 的 关系 ,储存 了 标记 基因 
型 ,疾病 的 状况 和 数量 性 状 标记 信息 ,并 提供 了 位 点 定位 及 等 位 基因 频率 信息 。Merlin 文 持 
QTDT 或 LINKAGE 格 式 的 输入 文件 。 这 两 种 格式 非常 相似 ,在 以 下 的 讨论 中 我 们 将 主要 关注 
QTDT 格 式 。 


(一 ) 群体 分 层 分 析 


虽然 家 系 会 变 得 非常 复杂 ,在 一 个 家 系 文件 中 所 有 用 于 重建 个 体 间 关系 的 信息 可 以 概 
括 为 5 个 项 目 ; 一 个 家 庭 的 标识 符 , 个 体 识别 码 , 与 每 位 家 长 的 链接 (如 有 果 有 的 话 ), 最 后 一 个 
指标 是 每 个 个 体 的 性 别 。 

以 下 为 是 一 个 虚拟 的 家 系 文件 : 


FAMILY PERSON FATHER MOTHER 


example granpa unknown unknown 


example granny unknown unknown 


example father unknown unknown 
example mother granpa granny 
example sister father mother 


example brother father mother 





这 些 关键 值 构成 了 任何 一 个 家 系 文件 的 前 五 列 。 由 于 在 早期 的 遗传 程序 中 存在 的 限制 ， 
文本 标识 符 通常 被 唯一 的 数值 所 取代 。 每 个 标识 符 被 唯一 的 整数 所 替代 旦 将 性 别 编码 为 女 
性 为 2, 男 性 为 1 之 后 ,一 个 基本 的 以 空格 分 隅 的 家 系 文件 会 是 以 下 这 种 形式 : 


<contents of basic. ped> 





<end of basic. ped> 


一 个 家 系 文件 可 以 包括 多 个 家 庭 。 每 个 家 庭 都 有 唯一 的 结构 ,在 数据 集中 与 其 他 家 庭 
之 间 存 在 独立 性 。 
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(二 ) 表 型 与 基因 型 


通常 标准 的 5 列 之 后 的 各 种 类 型 的 基因 数据 ,包括 离散 的 表 型 数据 ,数量 性 状 数据 和 标 
记 基 因 型 数据 。 
疾病 状况 通常 在 单独 的 一 列 进行 编码 : 





编码 数量 性 状 时 用 X 表 示 缺 失 值 (也 可 以 使 用 一 种 特殊 的 数值 表示 缺失 的 表 型 值 ,但 该 
程序 容易 出 错 ,不 推荐 )。 

标记 基因 型 被 编码 成 用 两 个 连续 的 整数 ,对 于 每 一 个 等 位 基因 用 一 个 “/” 进行 分 隔 , 或 
目 1.1 版 本 后 使 用 字母 “A”,“C”,“T” 和 “G” 来 编码 。 为 了 表示 缺失 的 基因 ,可 以 用 0,X 或 N。 
以 下 是 所 有 有 效 的 基因 型 项 1/1( 等 位 基因 为 1 的 纯 合 子 ),0/0( 缺 失 的 基因 型 ), 及 3/4( 等 位 基 
因为 3 和 4 的 杂 合 子 ) 在 Merlin 的 较 新 版 本 A/A ,A/C 和 C/C 也 是 有 效 的 基因 型 。 对 于 X 染 色 体 ， 
男性 应 该 像 他 们 好 像 有 两 个 相同 的 等 位 基因 那样 被 编码 。 

以 下 为 前 面 的 家 系 文件 添加 了 疾病 状况 ,对 数量 性 状 的 测量 值 和 两 个 标记 的 基因 型 后 
所 呈现 的 形式 : 


<contents of basic2. ped> 
l 
l 
l 
l 
l 
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<end of basic2. ped> 


注意 第 5 个 个 体 和 第 6 个 个 体 ,她 们 都 被 标记 成 易 感 (她 们 在 第 6 列 的 值 为 2 ), 其 他 的 每 
个 个 体 都 被 标记 成 非 易 感 的 (他 们 在 第 6 列 的 值 为 1 )。 她 们 的 数量 性 状 (第 7 列 ) 值 为 1.234 和 
4.321。 尽 管 每 个 个 体 在 第 一 个 标记 上 都 进行 了 基因 分 型 ,但 对 于 第 二 个 标记 ,只 有 个 体 5 和 
个 体 6 进 行 了 基因 分 型 。 


(三 ) 家 系数 据 分 析 


家 系 文件 所 包含 的 标记 基因 型 ,疾病 的 状况 和 数量 性 状 变量 的 个 数 只 受 可 用 内 存 的 限 
制 。 由 于 每 个 家 系 文件 具有 唯一 的 结构 (除了 第 一 个 5 列 ), 其 内 容 必须 在 与 其 配对 的 数据 文 
件 中 被 描述 。 
数据 文件 包括 家 系 文件 中 的 每 行 数据 项 ,显示 出 了 数据 类 型 (将 标记 编码 为 M, 将 易 感 
状况 编码 为 A ,将 数量 性 状 编码 为 T, 并 将 相关 变量 编码 为 C ) 并 为 每 一 个 数据 项 提供 了 一 个 
一 个 单词 表示 的 标签 。 对 应 于 上 述 家 系 的 包含 有 一 个 易 感 状况 , 接 下 来 是 一 个 数量 性 状 
和 两 种 标记 基因 型 的 数据 文件 的 具体 形式 如 下 所 见 : 
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<contents of basic2. dat> 


A some_disease 


T some trait 
M some marker 
M another marker 


«end of basic2. dat» 


可 以 利用 pedstats( 包含 在 Merlin 分 布 中 ) 得 到 任何 一 组 家 系 文件 和 数据 文件 的 概括 性 描 
述 。 要 运行 pedstats 你 必须 提供 你 的 数据 文件 的 名 称 ( -d 命 令 行 选 项 ) 和 家 系 文件 的 名 称 ( -p 
命令 行 选项 )。 在 Merlin 的 例子 的 目录 中 ,尝试 下 面 的 命令 : 





prompt» pedstats -d basic2. dat -p basic2. ped 





小 提示 : 在 Merlin 和 Pedstats 的 新 版 本 中 ,就 可 以 组 合 多 个 家 系 和 数据 文件 。 这 种 方法 在 
分 析 多 个 不 同 的 子 集 或 你 想 通过 染色 体 或 区 域 划分 基因 型 时 非常 方便 。 例 如 ,如 果 你 的 表 
型 数据 存储 在 pheno.dat 和 pheno.ped 文 件 中 , 且 你 的 基因 型 数据 存储 在 geno.dat 和 geno.ped 文 
件 中 ,你 可 以 利用 以 下 命令 行 组 合 它们 | 





prompt> pedstats -d pheno. dat, geno. dat -p pheno. ped, geno. ped 


(四 ) 遗传 定位 


为 了 分 析 遗 传 标记 , Merlin 需 要 它们 在 染色 体 上 的 定位 信息 。 这 通常 提 供 了 一 个 
定位 文件 。 如 果 你 正在 使 用 性 别 平均 定位 ,此 文件 中 的 每 个 标记 占 一 行 三 列 ,显示 出 
染色 体 , 标 记名 称 和 位 置 (以 厘 摩 为 单位 )。 如 果 你 正在 使 用 的 是 性 别 特异 性 定位 ,你 
需要 另外 两 列 分 别 来 指定 沿 女 性 遗传 方 问 定位 的 标记 位 置 和 沿 男 性 遗传 方 回 定位 的 
标记 位 置 。 

数据 文件 和 定位 文件 可 以 包含 不 同 的 标记 集合 ,但 那些 在 定位 文件 中 缺少 标记 就 会 被 
Merlin 忽 略 。 下 面 是 一 个 典型 的 定位 文件 ,如 下 所 示 : 


<contents of basic2. map> 


CHROMOSOME MARKER POSITION 
24 some_marker 123.4 
24 another_marker 136.2 





<end of basic2. map> 


这 里 是 一 个 精密 版 本 的 定位 文件 ,包括 每 个 标记 的 性 别 特异 性 定位 位 置 : 


«contents of file with sex-specific map» 
CHROMOSOME MARKER POSITION — FEMALE POSITION — MALE POSITION 
24 some marker 123.4 146.8 100.0 
24 another. marker 136.2 166.4 103.0 





«end of sex-specific map» 


使 用 划分 后 的 数据 和 定位 文件 作出 了 一 个 非常 简单 的 文件 结构 ,并 允许 Merlin 在 一 个 单 
一 的 运行 中 分 析 多 个 染色 体 。 
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(五 ) 等 位 频率 分 析 


LINKAGE 格 式 数据 文件 指定 在 每 个 位 点 上 的 等 位 基因 的 个 数 和 它们 的 频率 。 当 使 用 
QTDT 格 式 输入 文件 时 , Merlin 通 过 计算 所 有 个 体 的 等 位 基因 个 数 来 估计 等 位 基因 的 频率 。 
如 果 这 种 方法 得 到 的 等 位 基因 频率 对 于 现在 的 分 析 不 适合 ,你 需要 对 等 位 基因 频率 进行 最 
大 似 然 估 计 ( -fm 命令 行 选项 ), 规 定 合适 的 等 位 基因 频率 ( -fe ), 要 求 只 通过 在 创建 者 间 进 
行 计算 所 获得 的 估计 值 ( -ff ), 或 提供 一 个 自 定 义 等 位 基因 频率 文件 (- 人 文件 名 选项 )。 

一 个 自 定 义 等 位 基因 频率 文件 指出 了 在 每 一 个 标记 处 的 所 有 标记 等 位 基因 的 频率 。 对 
于 每 一 个 标记 ,用 来 命名 标记 的 单一 的 标题 行 之 后 接 下 来 是 一 系列 等 位 基因 频率 , 它 可 占用 
很 多 行 。 

每 个 标题 行 以 M 作 为 标签 ,并 包括 标记 的 名 称 。 接 下 来 的 一 系列 等 位 基因 频率 有 两 种 可 
选择 的 格式 : ODER HU SX. 等 位 基因 频率 列表 中 的 每 行 以 F 作 为 标签 , 且 列 表 中 所 有 等 位 基因 
的 频率 都 是 连续 的 ,以 等 位 基因 1 作为 开始 。 这 种 格式 对 于 具有 少量 等 位 基因 的 标记 来 说 很 
方便 ; @ 扩 展 格式 : 等 位 基因 频率 列表 中 的 每 行 以 A 作 为 标签 ,上 且 包 含 一 个 数字 的 等 位 基因 标 
签 , 接 下 来 是 一 个 等 位 基因 频率 。 在 列表 中 没有 被 明确 列 出 的 等 位 基因 被 估计 成 频率 为 0。 

经 典 等 位 不 平衡 模式 

例如 ,如果 some_marker 有 四 个 等 位 基因 ,频率 分 别 为 0.1 ,0.2 ,0.3 和 0.4, another_marker 有 
两 个 等 位 基因 ,频率 分 别 为 0.6 和 0.4, 那 它们 在 文件 中 为 以 下 形式 : 














<contents of basic2. freq> 


M some_marker 
<contents of basic2. freq> F 0.1 


M some_marker F 0.2 
F 0.1 0.2 0.3 0.4 F 0.3 
M another. marker 或 F 0.4 
F 0.6 0.4 M another_marker 
<end of basic2. freq> F 0.6 
F 0.4 


<end of basic2. freq> 





(六 ) 等 位 扩展 


这 种 格式 被 推荐 用 于 微 卫 星 和 其 他 具有 大 量 等 位 基因 的 标记 。 例 如 ,如 果 你 正在 分 析 
一 个 具有 152 个 、154 个 和 156 个 基础 对 的 等 位 基因 的 微 卫 星 标记 , 且 它 们 的 频率 分 别 为 0.5、 
0.4 810. L ,那么 频率 文件 可 以 被 写成 以 下 的 形式 : 


<contents of allele frequency file> 
M some_microsatellite 
A 152 0.5 
A 154 0.4 
A 156 0.1 





«end of allele frequency file» 
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(七 ) 关联 分 析 模 块 


Merlin 也 可 以 检测 一 个 SNP 与 一 个 或 多 个 数量 性 状 之 间 的 关联 性 。 在 Merlin 中 进行 的 关 
联 性 检测 包括 一 个 集成 的 基因 型 推理 功能 , 它 可 以 在 一 些 基 因 型 缺失 的 情况 下 提高 工作 效 
能 。 在 这 个 例子 中 ,我 们 将 看 到 如 何 利用 Merlin 进 行 关联 分 析 , 以 及 如 何 利 用 集成 的 基因 型 
推理 功能 估计 缺失 的 基因 型 。 

Merlin 进 行 的 关联 检测 可 以 用 来 全 基因 组 关联 性 扫描 ,或 用 于 候选 区 域 研究 。 不 过 , 重 
要 的 是 要 注意 与 标准 的 以 家 庭 为 基础 的 关联 测试 的 相 比 ,在 Merlin 中 进行 的 检测 并 不 控制 群 
体 分 层 。 如 果 群 体 分 层 是 一 个 要 关注 的 方面 ,那么 群体 的 成 员 应 该 作为 相关 变量 被 包括 在 
其 中 或 用 基因 控制 的 方法 来 矫正 结果 。 

要 运行 Merlin 中 的 关联 分 析 ,我 们 需要 指定 数据 集合 ( -d 参 数 ), 一 个 家 系 ( -p 参 数 ) 和 定 
位 文件 ( -m 人 参数 )。 此 外 ,我 们 需要 下 列 关 联 性 检测 之 一 : 打分 检测 ( —fastAssoc ) 或 似 然 比 检 
验 ( -assoc )。 打 分 检测 ( -fastAssoc ) 能 够 快速 .理想 的 筛选 大 量 的 标记 (例如 ,在 一 个 全 基因 
组 范围 关联 扫描 的 第 一 阶段 中 ), 而 更 精确 的 似 然 比 检验 ( -assoc ) 可 以 用 来 评估 数量 较 少 的 
标记 (例如 ,可 用 于 在 候选 区 域 进 行 挑 选 的 后 续 分 析 中 )。 在 只 包含 较 小 家 系 的 数据 集 或 当 
被 评估 的 影响 较 小 时 ,这 两 项 检测 会 给 出 类 似 的 结果 。 





-assoc 和 -fastAssoc ,是 两 个 最 常用 于 检测 关联 性 的 命令 ,上 面 的 命令 行 是 采用 这 两 个 命 
令 的 输入 格式 。 这 些 命令 在 Merlin 中 用 于 常 染 色 体 分 析 , 且 在 Minx 中 用 于 X- 连 锁 标记 分 析 。 
命令 运行 中 ,还 可 以 采用 -PDF 选项 和 -inverseNormal 选 项 对 结果 进行 了 图 形 化 的 概括 或 自动 
变换 性 状 使 它们 遵循 平稳 的 正 态 分 布 。 


( 徐 良 德 FF RK) 
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Section 1 miRNA and Target Gene 


—.miRNARDS > > 


1993 , WIE A R Victor Ambros 等 人 发 现 了 一 个 能 够 影响 秀丽 新 小 杆 线虫 发 育 的 基因 。 
他 们 发 现 其 产物 是 一 个 小 的 非 编码 RNA ,将 其 命名 为 Lin-4。 它 通过 与 基因 Lin-14 的 3” 端 非 
翻译 区 ( untranslated region, UTR ) 相互 作用 ,调节 线虫 的 发 育 。 在 2000 年 , 另 一 研究 小 组 在 
对 秀丽 新 小 杆 线虫 发 育 过 程 的 研究 中 又 发 现 了 另 一 个 小 的 调控 RNA Let-7。 短 期 内 , 研 
完 人员 在 哺乳 动物 中 发 现 许多 Let-7 的 同 源 物 。 这 些 同 源 物 与 线虫 中 的 Let-7 具 有 相似 的 时 
间 表 达 模 式 。 不 和 久 后 ,人 们 在 线虫 . 果 蝇 斑马 鱼 . 拟 南 芥 \ 水 稻 以 及 人 类 等 多 种 真 核 生 物 中 
找到 了 上 百 个 类 似 的 小 分 子 RNA ,并 将 其 称 为 miRNA。 

miRNA 是 一 种 长 度 大 约 为 22nt 的 内 源 性 单 链 RNA 分 子 , 能 够 调控 基因 的 表达 。 据 推测 ， 
人 类 有 超过 三 分 之 一 的 基因 受 miRNA 调 控 。 目 前 ,已 有 超过 1000 种 人 类 miRNA 被 发 现 。 随 
厦 人 们 对 miRNA 人 研究 的 深入 ,许多 其 他 类 型 的 小 RNA 陆 续 在 动物 .植物 以 及 真菌 中 被 发 现 。 
这 些小 RNA 包 括 内 源 性 小 干扰 RNA( small interfering RNA, siRNA ) 和 piwi-interacting RNA 
(piRNA )。 同 miRNA 一 样 ,这 些小 RNA 具 有 RNA 沉 默 的 功能 。 然 而 , miRNA 与 这 些小 RNA 
在 生物 合成 上 明显 不 同 。miRNA 是 来 自 于 上 自身 转录 本 所 形成 的 发 来 结构 ,而 其 他 类 型 的 小 
RNA 或 者 来 自 于 更 长 的 发 夹 结构 ,或 者 来 自 于 RNA 二 聚 物 ( siRNA ), 还 可 能 来 自 没 有 任何 双 
链 结构 的 前 体 ( piRNA ). 

人 们 对 通过 miRNA 基 因 组 的 分 析 发 现 ,超过 5$0% 的 哺乳 动物 miRNA 位 于 基因 内 ,这 些 
miRNA 可 以 与 它们 的 答 主 基因 一 同 转录 。 其 他 的 miRNA 则 位 于 基因 间 区 ,一 般 认 为 ,这 些 
miRNA 具 有 自己 独立 的 启动 子 , 可 以 形成 独立 的 转录 单元 。 编 码 miRNA 的 基因 首先 在 细 
胞 核 内 经 由 RNA 聚 合 酶 下 转录 产生 长 度 在 几 百 至 几 万 nt 的 初始 miRNA( primary RNA, pri- 
RNA )。 部 分 研究 也 发 现 一 些 miRNA 的 转录 与 RNA 聚 合 酶 亚 有 关 。pri-miRNA 被 一 种 称 为 微 
Ab ss ( microprocessor ) 的 多 和 集 日 质 复合 物 剪 切 为 长 度 在 60~100nt 间 ,具有 发 夹 结 构 的 单 链 
前 体 miRNA( pre-miRNA )。 并 通过 转运 蛋白 Exportin-5 及 其 Ran-GTP 辅 因子 ,将 pre-miRNA 
转运 至 细胞 质 中 。Exprotin-$ 与 Ran-CGTP 形 成 的 复合 物 对 pre-miRNA 具 有 高 亲和力 ,能 够 自 
miRNA 在 细胞 核 内 产生 开始 一 直到 被 第 二 次 裂解 的 过 程 中 ,对 进行 miRNA 保 护 。 在 细胞 质 
中 , pre-miRNA 经 过 Dicer 酶 加 工 , 形 成 长 度 在 19~24nt 的 miRNA-miRNA* 双 链 。 随 后 ,细胞 中 
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的 TRBP 以 及 PACT 进 行 成 熟 miRNA 链 的 选择 ( miRNA* 链 被 特异 的 降解 掉 ), 并 募集 Argonaute 
( AGO ) 生日 与 Dicer 形 成 三 聚 体 复合 物 , 进 而 启动 RNA 诱 导 的 沉默 复合 物 ( RNA-induced 
silencing complex, RISC ) 的 疫 配 。 在 哺乳 动物 中 , miRNA 通 过 引导 RISC 到 靶 mRNA 的 结合 位 
点 ,使 得 具有 内 切 酶 活性 的 AGO 和 蛋白 能 够 对 靶 向 的 mRNA 进 行 降解 。 其 他 的 miRNA 能 够 与 其 
特定 靶 基 因 的 3”UTR 部 分 匹配 。 这 种 不 完全 的 碱 其 配对 导致 又 mRNA 的 翻译 抑制 或 者 使 其 
脱 腺 苷 化 ,进而 导致 对 mRNA 的 不 稳定 (图 10-1 )。 
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Nuclear Export | TRBp 
| PACT 
miRNA-miRNA* TOOT ——— 
duni i Unwind | Degradation 
1 A u 
TITITTI TI ee 
ü u 1 
CECILIES Lour T 
Translational repression 


mRNA cleavage 
图 10-1 miRNA 的 生物 起 源 


成 熟 miRNA 主 要 通过 抑制 和 降解 两 种 方式 调节 和 靶 基 因 的 表达 。 两 种 方式 的 选择 取决 于 
miRNA 与 靶 mRNA 则 的 互补 程度 , 即 “种 子 区 域 ”( 通 常 指 miRNA 5” *ig2-8HJ EZ H RJ P 91] ) 与 
HE mRNA 3' 端的 互补 性 。 如 果 两 者 完全 互补 则 miRNA 使 hRNA 降 解 , 否 则 对 mRNA 进 行 翻译 
抑制 。 根 据 与 靶 基 因 的 结合 方式 不 同 , miRNA 大 致 分 为 三 类 : 第 一 类 以 线虫 中 的 Lin-4 为 代 
表 , 该 类 miRNA 与 靶 基 因 以 不 完全 互补 的 方式 结合 ,抑制 mRNA 的 翻译 但 不 影响 其 稳定 性 。 
目前 所 发 现 的 大 部 分 miRNA 属 于 此 类 ; 第 二 类 以 拟 南 芥 中 的 miR-171 为 代表 ,该 类 miRNA 与 
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靶 基 因 以 完全 互补 的 方式 结合 ,其 作用 方式 和 功能 与 iRNA 非 常 相似 一 一 直接 降解 靶 mRNA; 
第 三 类 以 Let-7 为 代表 ,该 类 miRNA 可 以 通过 以 上 两 种 结合 方式 作用 于 靶 基 因 。 如 在 果 蝇 中 
HJLet-7 É BE 4r SE RISCIER f£ H. SmRNA , ,而 在 线虫 中 的 Let-7 则 与 靶 mRNA 3” UTR 以 不 完全 
配对 的 方式 结合 ,进而 抑制 其 靶 mRNA 的 翻译 。 在 哺乳 动物 细胞 中 ,蛋白 质 组 实验 表明 单个 
miRNA 能 够 直接 抑制 上 百 种 蛋白 质 的 产生 。 而 且 , 这 些 和 蛋白 的 抑制 绝 大 多 数 是 由 于 mRNA 
表达 水 平 的 下 调 以 及 翻译 抑制 所 引起 的 。 然 而 ,这 种 经 由 miRNA 诱 导 的 抑制 作用 却 并 不 强 。 
有 趣 的 是 ,在 某 些 条 件 下 , miRNA 能 够 上 调 其 靶 mRNA 的 翻译 ,或 者 甚至 能 够 直接 对 其 靶 基 
因 的 转录 进行 干预 。 目 前 ,对 于 这 种 罕见 的 调控 模式 所 知 甚 少 。 

大 量 的 研究 表明 miRNA 可 以 通过 精细 地 调节 基因 的 表达 进而 参与 细胞 的 发 育 、 分 化 以 
及 应 激 反应 等 生物 学 过 程 。 随 着 对 miRNA 在 复杂 疾病 (尤其 是 癌症 ) 中 的 作用 的 深入 人 研究 ， 
研究 者 发 现 miRNA 能 够 参与 到 几乎 所 有 癌症 相关 的 生物 学 过 程 中 (如 凋 亡 增殖、 细胞 周期 、 
转移 )。miRNA 功 能 的 丢失 与 获得 与 癌症 的 发 生 密 切 相 关 。miRNA 通 过 不 同 的 机 制 引 起 总 
症 相 关 生 物 学 过 程 的 异常 : DmiRNA 位 点 的 缺失 、 扩 增 或 者 突变 ; CmiRNA 基 因 的 表 观 沉默 ; 
@) 结 合 到 miRNA 上 的 转录 因子 异常 。miRNA 作 为 一 类 新 的 生物 标记 ,已 被 应 用 于 疾病 的 诊 
断 以 及 预后 。 同 时 ,实验 证 据 表 明 利 用 miRNA 模 拟 或 者 抗 miRNA 能 够 作为 一 种 强 有 力 的 治 
疗 手段 ,用 于 干扰 对 癌症 发 生发 展 起 重要 作用 的 生物 通路 ,进而 达到 治疗 癌症 的 目的 。 


二 、miRNA 靶 基因 预测 >>. 


miRNA 通 过 与 其 靶 基 因 3”UTR 区 域 碱 基 互补 配对 ,对 靶 基 因 表 达 起 调控 作用 。 因 此 , 认 
识 miRNA 作 用 机 制 的 关键 是 认识 其 靶 基 因 。 由 于 目前 仍旧 缺乏 高 通 量 检测 miRNA 靶 基因 的 
实验 方法 ,许多 生物 信息 学 家 一 直 进 行 基于 计算 方法 预测 miRNA 筷 基因 的 工作 。 尺 省 大 量 
的 miRNA 靶 基因 预测 方法 已 发 表 , 但 是 其 假 阳 性 率 一 直 居 高 不 下 。 因 此 准确 地 预测 miRNA 
靶 基 因 和 正确 地 认识 miRNA 及 其 靶 基 因 的 作用 机 制 依旧 是 当前 miRNA 研 究 的 热点 。 

在 植物 中 ,由 于 miRNA 与 对 基因 位 点 是 完全 匹配 的 ,根据 miRNA 与 mRNA 的 3”UTR 序 列 
配对 可 以 准确 地 预测 靶 基 因 。 但 是 ,在 动物 中 , miRNA 与 靶 基 因 的 不 完全 匹配 使 得 靶 基因 预 
测 面临 很 大 的 挑战 。 最 初 的 方法 就 是 简单 的 基于 miRNA 与 基因 3”UTR 互 补 程度 进行 又 基 
因 的 预测 。 但 是 生物 学 家 很 难 去 选择 预测 出 的 靶 基因 ,而 且 , 不 同 的 方法 之 间 一 致 性 很 差 。 
随后 ,研究 者 们 进一步 使 用 更 加 复杂 的 模型 以 及 利用 更 多 的 生物 资源 对 miRNA 靶 基因 进行 预 
测 ( 如 miRNA 与 其 靶 位 点 的 互补 性 、miRNA 靶 位 点 的 保守 性 、miRNA-mRNA 结 合 的 热 稳 定性 、 
miRNA 靶 位 点 处 不 应 有 复杂 二 级 结构 以 及 miRNA 5” 端 与 靶 基 因 的 结合 能 力 应 强 于 3 端 )。 

目前 ,主要 的 生物 信息 学 算法 包括 miRanda TargetScan 、PicTar 等 。 基于 序列 H)miRNA 4E 
基因 预测 算法 虽然 各 不 相同 ,但 通常 遵循 以 下 几 个 原则 : miRNA SEXE DA] HE; miRNA 
的 靶 点 通常 分 为 三 类 ,为 5$” 端 主导 型 5” 端 种 子 主导 型 和 3” 端 互补 型 。 ”种子 区 域 ” 是 指 
从 miRNA 序列 5$” 端 第 2 个 核 苷 酸 起 向 3” 端 延伸 连续 7 个 核 苷 酸 ( 2-8nt )。5” 端 主 导 型 是 指 
miRNA 的 5” 端 和 3” 端 都 具有 较 好 的 碱 基 互 补 配对 ; 5$” 端 主导 种 子 型 是 指 miRNA 的 3” 奖 没 
有 发 生 较 好 的 碱 基 互 补 配对 ,但 miRNA 的 5” 端 至 少 有 连续 的 7 个 碱 基 与 nRNA 的 3”UTR 完 全 
互补 ; 3” 奖 互补 型 是 指 miRNA 序 列 3” 端 多 个 碱 基 与 靶 基 因 发 生 互补 配对 ,但 种 子 区 域 匹配 
不 充分 。@) 靶 点 在 多 物种 间 的 序列 保守 性 。@)miRNA 与 nRNA 形 成 双 链 结构 的 热力 学 稳定 
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性 。( 靶 基因 二 级 结构 和 靶 点 外 的 序列 对 靶 基 因 预 测 的 影响 。 

miRanda: miRanda 是 2003 年 提出 的 一 个 miRNA 靶 基因 预测 软件 。 它 依据 miRNA 与 mRNA 
序列 匹配 程度 、miRNA 与 mRNA 二 级 结构 热 稳 定性 以 及 靶 位 点 在 物种 间 的 保守 性 对 mRNA 的 
3’ UTR 进 行 分 析 。miRanda 首 先 采用 类 似 于 Smith-Waterman 的 算法 对 miRNA 和 mRNA 的 3”UTR 
序列 进行 碱 基 互补 分 析 , 构 建 打分 矩阵 : 如 果 正 确 互补 配对 (如 G : CHA : U ), 配 对 分 数 为 +5 ; 
销 配 人 分 为 -3 ,起 始 空位 罚 分 为 -8 ,延伸 空位 罚 分 为 -2 ; 如 果 是 G : U 配 对 ,配对 分 数 为 +2。 为 
体现 miRNA 的 5” 端 和 3” 端 在 与 靶 基 因 结 合 过 程 中 作用 的 不 均一 性 ,5” 端的 前 11 个 碱 基 的 互 
补 分 值 需 乘 以 一 个 尺度 参数 。 碱 基 互 补 遵循 4 个 规则 : miRNA 第 2~4 位 碱 基 必 须 和 和 靶 基因 完全 
匹配 ; 第 3~12 位 碱 基 丢 基因 错 配 数目 不 得 多 于 5 个 ; 第 9 至 倒数 第 6 位 碱 基 至 少 有 一 个 错 配 ; 
miRNA 的 最 后 $ 个 碱 基 错 配 不 能 多 于 2 个 。 其 次 ,在 miRNA 与 靶 基因 形成 二 聚 体 的 热力 学 稳定 
性 方面 , miRanda 利 用 Vienna 软 件 包 中 的 RNAlib( RNAsecondary structure programming library ) 计 
算 miRNA 与 mRNA 3” UTR 结 合 的 自由 能 。 最 后 ,在 物种 间 保 守 性 方面 , miRanda 22k 88 4 fe 
物种 间 保 守 , 即 靶 点 在 多 物种 3”UTR 序 列 比 对 中 相同 位 置 具有 相同 的 碱 基 。 

TargetScan: TargetScan 是 由 Lewis 等 人 开发 ,基于 热力 学 的 miRNA- 靶 基因 二 级 结构 特征 
和 保守 性 分 析 , 预测 哺乳 动物 物种 间 保 守 的 miRNA 靶 基因 的 算法 。TargetScan 要 求 “ 种 子 匹 
配 ”, 即 miRNA 的 第 2 到 第 8 位 核 苷 酸 种 子 序 列 和 mRNA 的 3”UTR 完 全 互补 ,从 种 子 序列 回 两 
Sg HEH, TRIG : U 配 对 ,直至 遇 到 错 配 停止 。 同 时 ,利用 RNAfold 算 法 优化 剩余 miRNA 3’ ti 
区 域 与 mRNA 的 匹配 。 在 热力 学 方面 ,利用 RNAeval 计 算 miRNA- 靶 基因 二 级 结构 的 自由 能 。 
最 终 , 对 每 一 个 UTR 计 算 一 个 分 值 ,并 按照 UTR 分 值 进 行 排序 。 该 算法 首次 引入 信 品 比 来 评 
价 靶 基因 预测 结果 。 该 算法 要 求 靶 向 的 UTR 至 少 在 两 个 物种 中 保守 。TargetScan 算 法 发 现 ， 
随 着 物种 数目 的 增多 ,预测 的 靶 基 因数 目 逐 渐 减 少 , 但 预测 结果 的 准确 率 得 到 提高 。2005 年 ， 
同一 组 研究 人 员 在 TargetScan 中 添加 了 更 多 的 物种 ,改进 的 算法 称 为 TargetScanS 与 TargetScan 
相 比 , TargetScanS 在 人 小 鼠 、 大 鼠 三 个 物种 的 基础 上 增加 了 狗 和 鸡 的 数据 ,并 重新 定义 了 种 子 
序列 (第 2 到 第 7 位 核 苷 酸 ), 要 求 种 子 序列 完全 互补 的 情况 下 , miRNA 第 8 位 碱 基 和 丢 基 因 互 补 
或 者 miRNA 5” 病 第 1 位 碱 基 是 A。TargetScan 人 研究 人 员 随 后 发 现 种 子 区 域 的 匹配 并 不 一 定 会 引 
起 其 靶 基 因 的 抑制 。 通 过 计算 和 实验 的 方法 ,他 们 进一步 的 确定 了 结合 位 点 上 下 文 相关 的 5 
个 特征 : DAE EAS C LAS AES AU; @ 与 共 表 达 miRNA 的 结合 位 点 邻近 ; (与 miRNA 第 13~16 
个 核 苷 酸 匹配 的 残 基 邻 近 ; @@ 至 少 远 离 3”UTR 终 止 密码 子 15nt; @ 远 离 长 的 UTR 的 中 心 。 这 些 
特征 能 够 有 效 的 反映 miRNA 对 其 靶 基 因 的 抑制 作用 。 人 研究 人 员 通 过 上 述 特征 进一步 改善 了 
TargetScan ,并 引入“Context Score” 用 于 量化 预测 结合 位 点 的 性 能 。 

PicTar: PicTar 开 发 于 2005 年 ,是 第 一 个 结合 机 笑 学 习 对 miRNA 丢 基因 进行 预测 的 方法 。 
该 算法 兼顾 了 靶 基 因 预 测算 法 的 基本 思想 ,同时 引入 了 机 器 学 习 方法 提取 特征 参数 ,从 统计 
的 角度 反映 miRNA 和 训 基 因 相 互 作 用 的 显著 性 。PicTar 算 法 的 前 提 假 设 是 miRNA 的 不 同 组 
合 在 不 同 细胞 系 中 可 能 协同 地 调控 细胞 特异 基因 的 表达 。PicTar 以 多 重 序 列 比 对 的 3”UTR 
和 共 表 达 的 成 熟 miRNA 作 为 输入 ,用 nuclMAP 预 测 UTR 序 列 上 所 有 可 能 的 miRNA 靶 位 点 , 检 
测 其 miRNA 和 驾 基 因 二 聚 体 是 否 符合 结合 能 标准 ,然后 过 滤 挥 没有 足够 靶 位 点 的 3”UTR ,并 
利用 隐 马 尔 科 夫 模型 最 大 似 然 法 对 每 个 UTR 打 分 ,最 后 进行 排序 。PicTar 在 miRNA 与 靶 基 因 
序列 匹配 时 ,把 种 子 序列 分 为 “完全 匹配 的 种 子 序列 ”和 “不 完全 匹配 的 种 子 序 列 ” ,后 者 在 
满足 结合 能 标准 前 提 下 允许 种 子 序列 出 现 错 配 , 但 不 允许 G-U 配 对 。 同 年 提出 的 TargetBoost 
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算法 ,是 把 遗传 算法 应 用 到 靶 基 因 预 测 中 。 从 miRNA 及 其 靶 基 因 相 互 作 用 特征 提炼 出 加 权 
的 模 序 作为 输入 参数 ,对 于 不 同 的 miRNA 进 行 分 类 ,然后 返回 不 同 miRNA 和 靶 基 因 相 互 作用 
的 概率 作为 靶 基 因 的 得 分 。 该 算法 不 依赖 于 靶 基 因 物 种 间 的 保守 性 , 且 通 过 提高 特征 参数 
的 质量 就 可 大 幅 提 高 预测 准确 率 。2006 年 , miTarget 把 支持 向 量 机 算法 融和 人 到 靶 基因 预测 
中 。 算 法 用 径 回 基 核 困 数 作为 相似 指标 ,把 支持 回 量 机 特征 分 为 三 类 ( miRNA AEA] — 2 
结构 特征 、 热 力学 特征 及 miRNA 和 和 靶 基因 相互 作用 的 碱 基 位 置 特征 ), 接 着 评估 特征 参数 ,最 
后 对 预测 的 靶 基 因 进 行 打 分 。 

GenMiR++: miRNA 在 转录 后 调控 水 平 起 了 很 大 的 作用 ,与 其 靶 序 列 进行 匹配 ,抑制 
mRNA 翻译 起 始 或 降解 mRNA。 因 此 , miRNA 对 基因 mRNA 水 平 的 调控 具有 很 大 的 贡献 。 
结合 miRNA 和 mRNA 表达 谱 为 预测 miRNA 靶 基因 提供 了 新 的 思路 。 由 于 miRNA 下 调 其 靶 
mRNA 表达 水 平 , miRNA 和 它 的 靶 点 在 表达 谱 上 呈 逆 加 关系 。2007 年 , Huang 等 人 检测 88 
个 组 织 的 miRNA 和 mRNA 表达 数据 ,并 基于 这 种 逆向 关系 ,利用 miRNA-mRNA 表 达 谱 构建 
miRNA- 靶 基因 调控 网 络 ,开发 了 基于 贝 叶 斯 方法 的 靶 基 因 预 测算 法 CenMiR++。 他 们 发 现 
了 104 个 人 类 miRNA 的 高 精度 的 靶 基 因 ,并 通过 实验 证 实 了 预测 的 let-7b 靶 基因 。 人 研究 结果 
表明 ,与 基于 序列 的 方法 相 比 ,利用 相同 样本 中 同时 检测 miRNA 和 mRNA 的 表达 谱 可 以 更 准 
确 的 预测 miRNA 靶 基因 。 

在 当前 的 miRNA 部 基因 预测 研究 中 ,研究 人 员 逐 渐 认 识 到 许多 新 的 miRNA- 靶 基因 结合 
特征 。 例 如 ,研究 发 现 , miRNA 与 靶 基 因 结 合 的 过 程 中 , mRNA 的 3”UTR 二 级 结构 起 看 重要 
作用 miRNA 彼 点 几乎 都 落 入 3”UTR 的 二 级 结构 不 稳定 区 域内 ,然而 提高 靶 点 附近 序列 
二 级 结构 的 稳定 性 能 够 大 大 降低 miRNA 对 靶 基 因 的 作用 。 已 有 实验 表明 , 靶 点 外 的 序列 也 
对 miRNA 调 节肢 基因 起 到 重要 作用 。 丢 点 后 的 一 段 序列 对 miRNA 与 靶 基 因 的 识别 起 着 重要 
的 作用 ,对 该 段 序列 突变 后 miRNA 对 和 靶 基 因 的 调控 作用 明显 减弱 ,而 将 该 段 序列 完全 删除 后 
miRNA 对 名 基因 的 调控 作用 完全 消失 。 这 些 新 新 的 特征 也 被 逐渐 加 入 到 miRNA 靶 预测 算法 
中 ,进一步 提高 算法 的 精确 性 。 同 时 ,研究 人 员 也 逐渐 意识 到 ,单一 依靠 序列 信息 或 者 表达 
信息 难以 继续 提高 miRNA 靶 基因 预测 效能 。 因 此 ,整合 不 同 层 面 的 数据 信息 (如 功能 信息 、 
和 蛋白质 互 作 信息 、 表 达 人 信息、 序列 信息 等 ) 以 及 目前 实验 已 证 实 的 miRNA 靶 基因 资源 能 够 进 
一 步 提高 miRNA 凶 基因 预测 的 精确 性 。 此 外 ,最 近 出 现 的 基于 深度 测序 的 miRNA 名 基因 检 
测 方法 也 为 miRNA 丢 预测 之 来 了 新 的 希望 。 这 些 人 研究 将 对 揭示 miRNA 功 能 、 了 解 miRNA 族 
导 疾 病 发 生 的 机 制 以 及 将 miRNA 用 于 癌症 治疗 等 关键 问题 起 到 重要 作用 。 





三 、miRNA 数 据 资源 >> 


(—) miRBase 


miRBase 是 一 个 主要 用 于 存储 miRNA 序 列 及 其 相关 注释 信息 的 在 线 数 据 库 (网 
HE: http: //www.mirbase.org/ ). 当前 的 miRBase 版 本 ( miRBase 18 ) 包 含 超 过 18000 个 发 夹 pre- 
miRNA ,代表 了 来 自 168 个 物种 的 21 000 个 成 熟 miRNA。 它 是 一 个 集 miRNA 序 列 注释 信息 
以 及 预测 的 靶 基 因数 据 为 一 体 的 数据 库 , 是 目前 存储 miRNA 信 息 最 主要 的 公共 数据 库 之 一 。 
该 数据 库 主 要 包括 三 部 分 内 容 , 即 miRBase Registry, miRBase Sequence 以 及 miRBase Targets, 
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其 主要 目的 : 山 保持 所 有 miRNA 的 命名 规则 一 致 ,并 且 为 新 发 现 的 miRNA 进 行 命 名 ; @) 存 储 
所 有 已 发 现 的 miRNA 序 列 ,提供 便捷 的 网 上 搜索 服务 以 及 所 有 miRNA 数 据 的 批量 下 载 ; DHE 
供 miRNA 相 关 的 注释 信息 (如 功能 数据 .基因 组 定位 、 相 关 参 考 文献 ); (为 用 户 提 供 来 自 不 
同 靶 预测 算法 的 靶 标 信息 的 外 部 链接 。 

图 10-2 所 示 为 miRBase 的 主 界面 。 主 界面 包含 四 部 分 : DmiRBase 数 据 库 的 更 新 信息 ， 
用 户 可 以 很 方便 地 知道 miRBase 的 下 个 版 本 的 发 布 日 期 ; (DmiRBase 的 版 本 号 (点 击 其 版 本 
号 可 以 看 到 其 当前 版 本 的 整体 数据 统计 ,及 其 与 前 一 版 本 的 差异 ) 便 捷 的 搜索 栏 批量 下 载 
的 入 口 ; BmiRBase 数 据 库 所 提供 的 基本 信息 描述 ; @miRBase 数 据 库 的 相关 参考 文献 。 通 
过 在 搜索 栏 中 输入 特定 miRNA 的 名 字 , 点 击 “GO0” 则 可 以 迅速 查询 到 该 miRNA 相 关 的 基本 
信息 。 该 信息 页 面 提 供 了 大 量 关 于 该 miRNA 的 基本 信息 ,包括 : 名 字 、 葵 环 结构 ,深度 测序 相 
关 信 息 、 基 因 组 定位 信息 、 同 得 miRNA 及 其 外 部 数据 的 相关 链接 。 同 时 ,该 页 面 还 包含 了 该 
pre— _miRNA 所 产生 的 成 熟 miRNA 信 息 ,包括 成 熟 miRNA 名 字 、 序 列 及 其 相关 预测 的 靶 基 因 。 
最 后 ,该 页 面 提 供 了 与 该 pre_miRNA 相 关 的 所 有 参考 文献 。 
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图 10-2 miRBase 数 据 库 主 界 面 
以 hsa-let-7a-1 为 例 , 图 10-3 显 示 该 pre-miRNA 所 有 信息 
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图 10-3 miRBase 数 据 库 查询 结果 解析 图 
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(DmiRNA 在 miRBase 数 据 库 中 的 名 字 为 hsa-let-7a-1 ; @hsa-let-7a-1 H) 3& Xf GH 44; 
OK B 49^ 3: US 8489694 reads, 点击 可 以 查询 在 49 个 实验 中 与 该 pre-miRNA 相 关 的 
read 数 目的 具体 统计 信息 ; DHsa-let-7a-1 位 于 9 号 染色 体 的 正 链 ,具体 区 间 为 96938239- 
96938318 ; (3 引 与 hsa-let-7a-1 同 一 簇 的 其 他 miRNA 及 它们 的 基因 组 定位 信息 ; @ 外 部 数据 
库 的 相关 链接 (如 Rfam 数 据 库 ); (Dhsa-let-7a-1 属 于 let-7a 家 W; (@hsa-let-7a-1 的 成 熟 
miRNA( hsa-let-7a-5p 以 及 hsa-let-7a-3p ); (hsa-let-7a-5p 以 及 hsa-let-7a-3p 的 序列 分 别 
为 ugagguaguagguuguauaguu 和 和 cuauacaaucuacugucuuuc; 40 不 同 靶 预测 算法 预测 的 靶 基 因 ( 如 
MICROCOSM, MIRNA.ORG TARGETSCAN, PICTAR ); 与 该 miRNA 相 关 的 参考 文献 。 


(Z) miRNA 靶 基因 数据 库 


目前 ,人 研究 人 员 开 发 了 大 量 的 miRNA 丢 基因 数据 库 , 包 括 被 实验 验证 的 靶 基 因数 据 库 ， 
基于 某 种 预测 算法 得 到 的 靶 基因 数据 库 以 及 整合 多 种 预测 算法 结果 的 数据 库 ( 表 10-1 )。 
表 10-1 miRNA 靶 基因 数据 库 
TarBase 实验 证 实 









http: //diana.cslab.ece.ntua.gr/tarbase/ 
miRTarBase 实验 证 实 http: //miRTarBase.mbc.nctu.edu.tw/ 
TargetScan 严格 种 子 匹 配 ; 位 点 上 下 文 ; 保守 (或 者 非 保守 ) http: //targetscan.org 
PicTar 严格 种 子 匹 配 http: Wpictar.mdc-berlin.de 
WP miRanda 算 法 Bi //www.ebi.ac.uk/enright-srv/ 
microcosm/htdocs/targets/v5/ 
MiRNA.org miRanda 算 法 http: //www.miRNA.org 
DIANA-microT  DIANA-microT 3.0 算法 ; 严格 序列 匹配 ; 保守 型 ” www.miRNA.gr/microT-v4. 
TargetMiner miRNA-mRNA 表 达 谱 ; SVM; 组 织 特异 性 www.isical.ac.in/-bioinfo miu 
RepTar 人 biis: Jneptackend haji ancl 
匹配 
miRror 整合 多 种 靶 数 据 ; 集中 于 miRNA 协 同 http: //www.proto.cs.huji.ac.il/mirror 
ExprTargetDB 整合 多 种 靶 数据 ; miRNA-mRNA 表 达 谱 http: //www.scandb.org/apps/mi RN A/ 
MirZ EIMMo 算法 ; 贝 叶 斯 模型 http: //www.mirz.unibas.ch 
miRTar 整合 多 种 靶 数 据 http: //miRTar.mbe.nctu.edu.tw/ 


TargetScan 是 一 个 第 用 的 靶 基 因 预 测 数 据 库 。 相 关 人 研究 人 员 不 断 改 进 TargetScan 算 
法 ,并 及 时 更 新 该 数据 库 。TargetScan 包 含 四 个 部 分 : TargetScanHuman , TargetScanMouse , 
TargetScanWorm 以 及 TargetScanFly。 从 TargetScanHuman 的 主 界面 的 右上 角 可 以 点 击 进 入 其 
他 三 个 部 分 。 用 户 可 以 通过 选择 物种 、 基 因 名 称 、miRNA 名 称 或 者 miRNA 家 族 对 miRNA 与 
靶 基 因 的 对 应 关系 进行 查询 。 例 如 ,搜索 hsa-let-7a 的 靶 基 因 , 只 需 在 “Enter a miRNA name 
( e.g. mmu-miR-1”)” 处 输入 该 miRNA 的 名 字 , 即 可 得 到 相应 的 靶 基 因 。TargetScan 搜 索 结 果 
提供 了 丰富 的 信息 ,包含 不 同 结合 位 点 的 不 同 种子 匹 配 类 型 结合 位 点 的 保守 型 与 “context 
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score” 等 。 这 些 信息 能 够 从 不 同 的 角度 反映 该 靶 基 因 预 测 结 果 的 准确 性 。 需 要 注意 的 是 ， 
该 结果 只 提供 了 具有 保守 靶 位 点 的 靶 基 因 。TargetScan 也 提供 了 不 考虑 靶 位 点 保守 性 的 邯 
基因 和 集合。 通过 点 击 “| View top predicted targets, irrespective of site conservation ”, 即 可 看 到 
大 量 的 不 考虑 靶 点 保守 性 的 靶 基 因 集 合 。 此 外 ,TargetScan 提 供 所 有 数据 的 批量 下 载 。 
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Section 2 miRNA Transcriptome 


一 、miRNA 表 达 谱 识别 癌症 相关 miRNA >> 


miRNA 作 为 一 类 重要 的 基因 调控 因子 ,通过 与 靶 基 因 3”UTR 结 合 , 广 泛 参 与 各 种 生物 学 
过 程 ,因此 检测 疾病 发 展 过 程 中 不 同时 期 或 不 同 状 态 下 miRNA 的 表达 并 识别 异常 的 miRNA 
对 疾病 诊断 或 预后 有 很 大 的 帮助 。 近 年 来 ,很 多 癌症 研究 表明 miRNA 表 达 谱 能 够 有 效 地 分 
类 癌症 ,并且 miRNA 表 达 变 化 与 癌症 的 发 生 发展 及 转移 密切 相关 。 因 此 ,基于 miRNA 表 达 
谱 来 控 气 人 类 疾病 相关 的 miRNA 是 现在 癌症 研究 重点 之 一 。 


(一 ) miRNA 表 达 谱 种 类 


人 们 发 现 miRNA 在 癌症 发 生发 展 过 程 中 起 着 重要 作用 ,检测 并 分 析 miRNA 表 达 谱 成 为 
人 研究 miRNA 功 能 的 一 个 重要 的 部 分 。 随 着 对 miRNA 序 列 结 构 了 解 的 深入 , 越 来 越 多 的 技术 
被 用 于 检测 miRNA 的 表达 。 除 了 传统 的 芯片 检测 技术 之 外 ,许多 新 的 miRNA 表 达 检 测 技术 
应 运 而 生 。 目 前 应 用 于 检测 miRNA 表 达 水 平 的 其 他 生物 学 方法 还 包括 克隆 、Northern 印 迹 、 
定量 实时 PCR( quantitative real time polymerase chain reaction, qRT-PCR ), Ji f Z& AZ ( in situ 
hybridization, ISH ) 和 新 一 代 高 通 量 测序 技术 ( next-generation sequencing, NGS ) 等 。 这 些 
方法 已 经 成 功 应 用 于 检测 miRNA 的 表达 人 研究。 根据 实验 检测 技术 ,和 用 的 miRNA 和 表达 说 可 
以 分 为 定量 实时 PCR( qRT-PCR ) miRNA 表 达 谱 、 必 片 杂 交 产 生 的 miRNA 表 达 谱 和 新 一 代 
高 通 量 检 测 的 miRNA 表 达 谱 。 检 测 miRNA 表 达 谱 平台 主要 包括 Agilent、 Exiqon、 Ilumina, 
Ambion、Combimatrix、Invitrogen 等 。 基 于 以 上 方法 和 平台 检测 的 miRNA 表 达 谱 数据 已 经 陆 
续 被 提交 到 GEO 或 ArrayExpress 等 公共 数据 库 中 。 大 量 利用 miRNA 表 达 诺 的 人 研究 已 经 完成 
并 被 陆续 发 表 。 这 些 研 究 涉及 疾病 诊断 、 预 后 及 疾病 发 生发 展 相 关 的 miRNA 标 记 等 方面 ,其 
中 癌症 相关 的 miRNA 表 达 人 研究 占 各 种 疾病 研究 的 主要 部 分 。 已 有 大 量 癌症 miRNA 标 记 被 证 
实在 癌症 发 生发 展 或 转移 过 程 中 起 到 重要 作用 。 随 着 mRNA 表达 说 检测 技术 的 不 断 成 玖 ， 
日 益 累积 的 miRNA 表 达 谱 数据 为 今后 进一步 研究 辣 症 致 病 机 制 提 供 了 重要 数据 来 源 。 


(=) miRNA 表 达 谱 检测 技术 的 差异 


尽管 利用 DNA 心 片 技术 来 检测 miRNA 的 表达 越 来 越 受 欢迎 ,但 是 这 些 技术 准确 性 并 没 
有 被 充分 地 证 实 。 早 期 研究 表明 ,不 同 必 片 技术 检测 同样 本 mRNA 基因 表达 的 可 重复 率 较 
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低 , 相 关 性 较 差 。 这 种 不 一 致 性 部 分 可 能 是 由 早期 平台 的 不 完整 或 不 正确 的 注释 ,技术 之 间 
探 针 的 不 正确 匹配 或 数据 标准 化 的 差异 性 导致 的 。 随 着 技术 的 发 展 ,更 精确 的 注释 平台 、 更 
合理 的 探 针 匹配 以 及 进一步 优化 的 数学 模型 和 过 滤 技 术 使 得 芯片 检测 技术 内 部 或 技术 之 间 
有 了 相对 高 的 一 致 性 。 
检测 基因 表达 的 技术 虽然 可 以 用 来 检测 miRNA 的 表达 ,但 是 也 面临 着 很 大 的 挑战 。 就 
心 片 技术 而 言 , miRNA 序 列 长 度 较 短 直 接 限 制 了 探 针 的 设计 ,可 能 整个 miRNA 被 看 做 一 个 
探 针 。 同 时 ,由 于 miRNA 家 族 的 存在 ,家 族 成 员 之 间 序 列 相 似 性 很 高 ,导致 设计 的 探 针 呈现 
元 余 性 ,不 能 够 很 好 检测 不 同 成 员 之 间 差异 的 表达 模式 。 由 于 新 的 miRNA 序 列 长 度 较 短 且 
不 同 平台 间 的 探 针 设计 和 实验 协议 有 着 显著 的 不 同 , 研 究 不 同 技术 平台 检测 miRNA 表 达 的 
一 致 性 是 非常 有 必要 的 。 目 前 ,将 TaqMan PCR 实 验 检 测 的 miRNA 表 达 谱 做 为 金 标准 ,通过 
与 TaqMan PCR 实验 检测 的 miRNA 表 达 谱 相 比 较 来 分 析 四 个 miRNA 芯 片 技术 之 间 的 准确 性 
和 可 重复 性 。 在 本 文中 ,应 用 两 个 商业 常用 的 小 鼠 参考 RNA 来 创建 两 个 参考 样本 池 ,这 两 
个 参考 样本 池 可 以 保证 样本 间 miRNA 丰 度 的 最 大 差异 。 参 考 RNA 样 本 池 1 来 自 小 鼠 胚 胎 畦 
ALON SR AGAR, BAS RNATE ASQ A) UAB AF 、 心 、 肺 三 个 组 织 。 把 这 两 参考 RNA 池 分 
成 四 等 份 , 分 别 利 用 4 个 全 基因 组 范围 内 芯片 技术 ( Agilent, Exiqon, Invitrogen NCode and LC 
Sciences ) 进行 杂交 产生 miRNA 表 达 谱 。 利 用 不 同 芯 片 技 术 检测 miRNA 表 达 谱 ,对 技术 内 和 
技术 间 进 行 比 较 , 同 时 和 同样 本 TaqMan PCR 实验 检测 miRNA 表 达 谱 进行 比较 。 利 用 斯 皮 
尔 曼 相关 系数 作为 衡量 准确 性 和 重复 性 的 指标 。 通 过 与 背景 信号 相 比 ,5$4 个 miRNA 表 达 同 
时 被 所 有 的 平台 检测 到 。 平 台 内 miRNA 表 达 谱 的 重复 性 很 高 ,斯 皮尔 曼 相关 系数 大 于 0.9。 
不 同 平台 检测 的 miRNA 表 达 谱 之 间 仍 然 有 很 高 的 相关 系数 (变化 范围 0.663~0.949 )。 同 时 ， 
与 TaqMan PCR 实验 检测 的 miRNA 表 达 谱 比较 ,这 些 芯 片 技术 检测 的 表达 谱 和 TaqMan PCR 
实验 检测 的 miRNA 表 达 谱 具有 很 高 的 斯 皮尔 曼 相 关系 数 和 一 臻 相关 系数 。 这 些 结果 显示 
miRNA 心 片 平 台 可 以 产生 高 度 重 复数 据 并 且 适 用 于 研究 miRNA 的 差异 表达 。 











二 、miRNA 表 达 谱 分 类 人 类 癌症 >> 


(一 ) 利用 表达 谱 数 据 识 别 癌症 相关 miRNA 


挖掘 疾病 相关 的 miRNA 已 经 成 为 现今 非 编 码 RNA 人 研究 领域 内 重点 目标 之 一 。 大 量 研究 
发 现 miRNA 在 复杂 疾病 发 生 过 程 中 起 着 非常 重要 的 作用 ,很 多 miRNA 世 片 技术 应 运 而 生 ,并 
应 用 于 识别 复杂 疾病 特别 是 癌症 相关 miRNA。 利 用 miRNA 表 达 谱 数据 识别 癌症 相关 miRNA 
一 般 分 为 三 个 步骤 。 第 一 步 , 表 达 数 据 获取 , 即 从 公共 表达 数据 库 ( CEO、 ArrayExpress 等 ) 中 
查询 并 下 载 汕 有 癌症 与 正常 样本 的 miRNA 表 达 数 据 。 第 二 步 , 表 达 数 据 预 处 理 , 即 对 所 获取 
的 miRNA 表 达 谱 数据 进行 标准 化 以 便于 后 续 分 析 。 然 而 目前 miRNA 表 达 谱 数据 预 处 理 面 临 
的 重要 问题 是 缺乏 统一 的 标准 化 方法 。 随 着 各 种 miRNA 表 达 检 测 技术 的 发 展 尤 其 是 高 通 量 
检测 技术 的 发 展 , 以 往 mRNA 表 达 谱 数据 的 标准 化 的 方法 无 法 有 效 地 移植 到 miRNA 表 达 谱 
数据 应 用 中 。 第 三 步 ,识别 癌症 相关 miRNA , 即 利用 miRNA 表 达 谱 寻找 癌症 发 生 发 展 或 转 
移 过 程 中 异常 表达 (包括 上 调和 下 调 ) 的 miRNA。 寻 找 异 常 表达 miRNA 过 程 中 经 常 利用 到 
的 生物 统计 学 方法 有 Fold change、: 检 验 、SAM、ANOVA 和 等。 通过 统计 学 筛选 ,寻找 出 癌症 样 
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本 和 正常 样本 中 差异 表达 的 miRNA ,将 这 些 miRNA 作 为 与 该 种 癌症 发 生 密 切 相 关 的 miRNA。 
然后 在 进一步 实验 中 ,通过 对 这 些 异常 miRNA 进 行 敲 除 或 者 过 表达 ,对 差异 表达 结果 进行 生 
物 学 证 实 , 从 而 确定 真实 癌症 相关 的 miRNA。 


(=) 利用 miRNA 表 达 谱 数据 分 类 人 类 癌症 


过 去 的 20 年 里 ,在 分 子 水 平 上 的 癌症 分 型 研究 已 经 获得 巨大 成 功 并 被 广泛 应 用 于 识别 
癌症 相关 的 生物 学 标记 ( biomark )。 这 些 人 研究 表明 利用 编码 和 蛋白 的 转录 本 (mRNA ) 可 以 有 
效 地 区 分 各 种 癌症 或 癌症 的 不 同 亚 型 ,因此 这 些 与 癌症 相关 的 转录 本 可 以 作为 可 靠 的 生物 
学 标记 用 于 癌症 致 病 机 制 的 研究 。 近 几 年 来 , 随 着 生物 学 界 对 非 编码 RNA 研 究 力度 的 加 大 ， 
各 种 非 编 码 小 RNA 实 验 检 测 技术 得 到 快速 发 展 , 越 来 越 多 小 的 非 编码 RNA 被 发 现 。 这 些 非 
编码 RNA 相 应 的 功能 也 得 到 研究 和 证 实 。 值 得 注意 的 是 , 占 这 些 非 编码 小 RNA 研 究 中 比例 
最 大 的 是 对 miRNA 的 研究 ,大量 研 究 已 经 证 明 miRNA 的 表达 异常 通常 与 癌症 的 发 生 .发 展 或 
转移 有 密切 关系 。 因 此 ,很 多 研究 已 经 开始 利用 miRNA 表 达 谱 数据 对 癌症 进行 分 类 ,并 且 将 
miRNA 作 为 一 种 新 的 生物 学 分 子 标 记 用 来 判断 癌症 发 生 发 展 或 者 预后 。 

2005 年 的 Nature 期 刊 中 , Lu 等 人 成 功 地 利用 磁 珠 流 式 细胞 术 检 测 技术 系统 检测 到 了 涉 
及 多 种 癌症 的 334 个 样本 ,其 中 包含 了 217 个 人 类 miRNA 的 表达 水 平 。Lu 等 人 发 现 miRNA 表 
达 谱 中 含有 大 量 能 够 准确 反映 发 育 谱系 和 肿瘤 的 分 化 状态 的 信息 ,他 们 观察 到 与 正常 样 
本 的 表达 水 平 相 比 miRNA 在 肿瘤 样本 中 的 表达 普遍 下 调 。 在 人 研究 中 , Lu 等 人 首次 全 面 证 
实 了 利用 miRNA 对 癌症 分 类 具有 有 效 性 及 可 行 性 。 随 后 ,大 量 的 miRNA 表 达 谱 研究 证 实 了 
miRNA 作 为 生物 学 分 子 标记 的 可 靠 性 。 在 本 小 节 中 ,我 们 将 探索 如 何 利用 miRNA 表 达 数 据 
对 癌症 进行 分 类 。Lu 等 人 检测 的 334 个 样本 中 包括 多 种 人 类 组 织 , 包 括 乳 腺 、 前 列 腺 、 胃 、 结 
肠 和 肺 等 ,其 中 某 些 组 织 样本 取 自 癌症 患者 ,例如 肺癌 、 乳 腺 癌 、 白 血 病 等 患者 。 从 GEO 中 获 
取 334 个 样本 的 原始 miRNA 表 达 数 据 并 进行 预 处 理 。 预 处 理 过 程 中 ,基于 两 套 miRNA 探 针 
集 所 包含 的 控制 探 针 对 所 有 miRNA 探 针 检 测 值 进行 标准 化 ,对 表达 强度 偏 低 的 探 针 进行 修 
正 。 之 后 ,删除 探 针 集中 所 有 控制 探 针 , 并 对 miRNA 探 针 集 检测 到 的 表达 值 进行 以 2 为 底 的 
对 数 转换 。 基 于 miRNA 表 达 谱 ,利用 层次 聚 类 方法 对 218 个 样本 进行 聚 类 分 析 。 从 聚 类 图 中 
可 以 看 出 几乎 所 有 的 miRNA 表 达 值 在 不 同 的 癌症 类 型 中 都 具有 差异 。 聚 类 图 显示 具有 共同 
组 织 发 育 起 源 的 样本 都 被 聚 到 一 起 。 例 如 ,来 自 结 肝 、 肠 、 胰 腺 以 及 胃 部 的 样本 被 很 好 聚 在 
一 起 ,这 些 不 同 的 组 织 样本 共同 起 源 于 肽 胎 的 内 胚层 ; 起 源 于 上 皮 组 织 或 胃 肠 道 组织 的 样 
本 全 部 被 聚 到 一 起 形成 一 个 聚 类 分 支 ; 而 造血 相关 的 恶性 肿瘤 样本 明显 地 分 布 于 另 一 主要 
分 文 上 。 聚 类 结果 表明 miRNA 表 达 谱 能 够 很 好 区 分 不 同 组 织 起 源 的 样本 。 为 了 进一步 证 实 
miRNA 表 达 谱 能 应 用 于 癌症 诊断 ,研究 人 员 选 取 了 68 个 高 分 化 的 癌症 样本 (代表 11 种 不 同 的 
组 织 类 型 ), 利 用 概率 神经 网 络 算法 对 这 些 样本 的 miRNA 表 达 谱 数据 分 别 进行 训练 并 产生 相 
应 的 多 类 别 的 分 类 需 。 然 后 ,利用 训练 产生 的 分 类 器 对 17 个 低 分 化 的 肿瘤 样本 的 组 织 类 型 
进行 预测 。 基 于 miRNA 表 达 值 进行 训练 的 分 类 器 正确 分 类 了 17 个 低 分 化 肿瘤 样本 中 的 12 个 
样本 。Lu 等 人 的 数据 中 还 包括 了 来 自 218 个 样本 中 的 89 个 组 织 的 mRNA 表达 谱 数 据 。 利 用 
这 些 mRNA 表 达 谱 数据 (大 约 包含 16 000 个 mRNA ) 对 同样 的 样本 进行 聚 类 时 ,发 现 具 有 相同 
组 织 起 源 的 样本 并 没有 被 聚 到 一 起 。 同 时 ,利用 mRNA 基于 68 个 高 分 化 的 癌症 样本 构建 表 
达 谱 构建 神经 网 络 分 类 器 ,并 对 17 个 低 分 化 肿瘤 样本 进行 检测 ,结果 表明 只 能 正确 分 类 其 中 
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的 一 个 样本 。 该 数据 还 包含 来 自 73 个 急性 淋巴 细胞 白血病 患者 的 骨髓 样本 的 miRNA 表 达 水 
平 。 经 过 层次 聚 类 ,一 个 主要 分 支 包含 所 有 5 个 BCR/ABL 阳 性 样本 以 及 11 个 TEL/AML1I 样 本 
中 的 10 个 样本 ; 另 一 个 主要 分 支 包 含 了 19 个 急性 T 细 胞 淋巴 细胞 白血病 样本 中 的 13 个 样本 。 
聚 类 结果 说 明 即 使 对 于 同一 组 织 起 源 的 样本 ,利用 miRNA 表 达 数 据 进行 聚 类 仍旧 能 够 得 到 
疾病 的 不 同 亚 型 并 识别 不 同 亚 型 中 miRNA 表 达 模 式 。 

由 于 miRNA 在 癌症 分 类 中 具有 的 重要 作用 , 越 来 越 多 的 研究 利用 miRNA 表 达 谱 研究 同 
种 疾病 的 不 同 亚 型 。Cherie Blenkiron 等 利用 miRNA 表 达 谱 分 析 乳 腺 癌 并 识别 肿瘤 亚 型 生物 
标记 分 子 。 该 研究 分 析 了 包含 93 个 原 发 乳腺 癌 、33 个 乳腺 癌 细 胞 系 和 5 个 正常 乳腺 样本 的 
miRNA 表 达 谱 。 通 过 层次 聚 类 ,发现 miRNA 表 达 谱 能 够 很 好 地 把 乳腺 癌 细 胞 系 、 原 发 肿瘤 样 
本 和 正常 样本 分 开 。 同 时 聚 类 分 析 结 果 表 明 ER- 和 ER+ 两 个 乳腺 癌 亚 型 在 miRNA 表 达 模 式 
上 存在 显著 的 不 同 。 为 了 进一步 证 实 miRNA 是 否 在 乳腺 癌 不 同 亚 型 中 差异 表达 ,利用 单 样 
本 预测 算法 把 93 厚 发 乳腺 癌 样 本 进行 亚 型 分 类 : luminal A, luminal B、basal-like、HER2+ 和 
normal-like。 通 过 识别 乳腺 癌 亚 型 间 差 异 表 达 的 miRNA ,利用 差异 表达 的 miRNA 对 有 亚 型 标 
签 的 样本 进行 有 监督 聚 类 。 结 果 表 明 这 些 差异 表达 基因 能 够 很 好 地 将 乳腺 瘤 亚 型 分 开 。 为 
了 证 明 miRNA 表 达 谱 对 样本 亚 型 具有 预测 的 潜能 ,利用 检测 137 个 miRNA 表 达 谱 的 basal-like 
样本 和 luminal A 样 本 进行 基于 模型 的 判别 分 析 , 并 对 Lu 等 检测 的 11 乳 腺 癌 样 本 进行 分 类 。 
结果 表明 基于 miRNA 表 达 谱 可 以 有 效 地 对 乳腺 癌 亚 型 进行 分 类 。 

这 些 研究 暗示 着 miRNA 表 达 数 据 中 蕴含 着 惊人 的 信息 量 , 不 仅 能 够 有 效 地 反映 出 不 同 
的 组 织 起 源 和 癌症 分 化 状态 ,而 且 同 mRNA 数 据 相 比较 ,利用 miRNA 表 达 谱 数据 能 够 更 有 效 
地 预测 出 低 分 化 癌症 样本 的 组 织 类 型 。 总 之 , miRNA 表 达 谱 数据 为 癌症 的 诊断 提供 了 潜在 
的 可 能 性 。 


(=) miRNA 表 达 谱 数据 应 用 于 癌症 预后 


除了 利用 miRNA 表 达 谱 分 类 癌症 ,潜在 地 将 miRNA 标 签 应 用 于 癌症 诊断 之 外 ,很 多 研究 
还 表明 miRNA 标 签 有 可 能 用 于 人 类 癌症 的 预后 。 这 些 探索 miRNA 在 肿瘤 发 展 中 作用 的 人 研究 
将 研究 重点 放 在 治疗 策略 靶 向 的 miRNA 或 miRNA 调 控 的 通路 之 中 ,通过 研究 不 同时 期 或 不 
同 阶段 癌症 中 miRNA 标 签 来 用 于 患者 的 预后 。 例 如 , Hu 等 人 发 现在 人 类 血清 之 中 存在 稳定 
表达 的 miRNA ,这 些 miRNA 可 以 作为 潜在 的 疾病 标签 预测 存活 。 作 为 实例 , Hu 等 人 利用 I 
至 肝 期 的 肺癌 和 鳞 状 细胞 癌 患 者 血清 样本 进行 研究 ,通过 qRT-PCR 沪 片 检测 发 现 30 个 长 期 
存活 的 患者 血清 中 的 miRNA 表 达 水 平 与 30 个 短期 存活 患者 相 比 具有 显著 差异 。 通 过 检测 发 
现 四 个 miRNA 标 签 : miR-486 、miR-30d、miR-1 和 miR-499 可 以 作为 非 侵蚀 性 的 预测 子 用 来 预 
测 非 小 细胞 肺癌 患者 的 存活 时 间 。 通 过 研究 182 个 急性 髓 样 白血病 患者 样本 中 miRNA 表 达 ， 
Ramiro 等 人 发 现 与 正常 样本 相 比 ,疾病 样本 中 很 多 miRNA 差 异 表达 并 且 这 些 miRNA 的 表达 与 
分 子 异常 紧密 相关 。 通 过 对 122 个 新 诊断 为 急性 髓 样 白血病 患者 样本 的 miRNA 表 达 谱 进行 生 
存 分析 发 现 miR-191 和 miR-199a 两 个 miRNA 与 急性 艇 样 白 血 病 患 者 的 预后 不 恨 显 闭 相关。 


三 _miRNA 表 达 谱 与 nRNA 表 达 谱 整合 分 析 5. 


近年 来 , miRNA 作 为 转录 后 调控 的 重要 调控 因子 成 为 科研 的 研究 热点 。 很 多 研究 人 
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31 HFR mRNA HAE, JF FFA T AR Z miRNA FHM AE, T jn BE AE ZS A miRNA FE 
因 之 间 存 在 多 对 多 的 关系 ,也 就 是 靶 的 多 样 性 和 miRNA 的 协同 性 。 但 是 这 些 预测 算法 并 不 
能 明确 指出 哪些 miRNA 靶 关系 在 特定 的 条 件 下 被 激活 ,进而 发 挥 作用 。 随 痢 实 验 检测 技术 
的 不 断 发 展 , 产 生 了 大 量 的 miRNA 和 mRNA 表达 谱 数 据 。 生 物 信息 学 研究 者 通过 整合 多 种 基 
因 组 数据 ( miRNA 表 达 谱 、mRNA 表 达 谱 、miRNA 靶 关系 、 基 因 本 体 论 蛋白质 互 作 网 络 ) 来 
研究 miRNA 的 功能 。 整 合 miRNA 表 达 谱 和 mRNA 表达 谱 研 究 疾 病 将 有 助 于 提高 研究 结果 的 
准确 性 。 

miRNA 和 mRNA 表达 谱 可 以 用 来 衡量 某 特定 条 件 下 miRNA 和 基因 的 活性 。 同 时 ， 
miRNA 和 mRNA 表达 谱 提 供 了 不 同 细 胞 状态 下 miRNA 基因 以 及 二 者 的 调控 关系 在 转录 水 
平 上 的 动态 性 。 整 合 miRNA 表 达 谱 和 mRNA 表达 谱 , 能 够 更 准确 地 人 研究 miRNA 靶 回 天 系 , 进 
而 明确 miRNA 在 不 同 状态 下 的 作用 。 我 们 可 以 从 两 个 方面 来 分 析 miRNA 在 不 同 状态 下 的 功 
能 。 一 是 基于 miRNA 表 达 谱 和 mRNA 表 达 谱 预测 miRNA 轩 基因 ,进而 分 析 miRNA 的 功能 。 二 
是 ,结合 已 知 基 于 序列 的 靶 基 因 预 测算 法 ,利用 miRNA 表 达 谱 和 mRNA 表达 谱 识别 在 特定 条 
件 下 的 miRNA-mRNA 调 控 模块 。 


(一 ) 预测 miRNA 靶 位 点 


虽然 很 多 基于 序列 靶 预 测算 法 已 经 预测 出 很 多 miRNA 靶 基因 ,只 有 很 少数 的 miRNA 通 
过 实验 证 实 具 有 特定 的 功能 。 准 确 预 测 miRNA 靶 基 因 不 但 是 研究 miRNA 功 能 特征 的 一 个 瓶 
贷 ,而 且 是 研究 由 miRNA 失 调 引 发 的 人 类 疾病 的 关键 。 此 外 ,难以 正确 的 识别 具有 生理 活性 
的 miRNA 仍 是 研究 miRNA 功 能 特征 的 阻碍 。 

众所周知 , miRNA 通 过 抑制 靶 基因 的 翻译 或 降解 mRNA 来 调节 基因 的 表达 。miRNA 的 
功能 失调 会 导致 下 游 靶 基因 的 表达 紊乱 。 很 多 miRNA 转 染 或 融 除 实验 使 得 其 靶 基 因 的 表达 
降低 或 升 高 ,进而 证 明 miRNA 与 其 靶 基 因 呈 现 靶 回 关 系 ; 并 且 这 种 关系 是 逆 回 的 。 最 近 , Guo 
等 人 通过 敲 除 mir-223 以 及 转 染 mir-1、mir-15 证 明 miRNA 主 要 是 通过 降解 mRNA 导 致 重 白 质 
的 表达 水 平 下降 。 利 用 miRNA 和 mRNA 同 时 检测 的 表达 谱 可 以 准确 预测 功能 miRNA 靶 点 。 

Huang 等 人 在 序列 预测 算法 的 基础 上 ,结合 同时 检测 的 88 个 组 织 中 miRNA 和 mRNA 表达 
TS Imi RNASROE R HIT — 2b 9n xe, Seres F DRM BE ,并 通过 实验 证 实 了 其 预测 的 靶 基 
Dj. Gennarino A JF miRNA 5E Hg FAA [8] BA RIE 36 35 E 28 , A miRNA EEA 
表达 代替 miRNA 的 表达 ,通过 计算 miRNA 和 窒 主 基因 与 mRNA 的 道 问 共 表达 关系 预测 miRNA 
靶 基 因 , 使 靶 基 因 预 测 准确 性 有 所 提高 。Liu 等 人 基于 89 个 人 类 组 织 中 的 miRNA 和 mRNA 表 
达 谱 ,计算 miRNA-mRNA 对 的 相关 性 ,利用 成 熟 mRNA 的 功能 来 推断 miRNA 的 功能 。 

同时 ,人 们 发 现 miRNA 在 疾病 研究 中 起 着 重要 作用 ,因此 需要 研究 miRNA 在 特定 疾病 中 
的 功能 。 利 用 同步 检测 疾病 相关 的 miRNA 和 mRNA 表达 谱 , 我 们 还 可 以 预测 特定 疾病 条 件 
PF BEB miRNA FE [fn] KA 


(=) 识别 miRNA 调 控 模 块 


miRNA 的 出 现 使 基因 调控 网 络 变 得 更 为 复杂 。miRNA 作 为 新 的 基因 调控 网 络 的 重要 调 
控 子 , 其 功能 成 为 研究 热点 。 人 研究 人 员 从 计算 方法 和 实验 方法 两 个 方面 来 解析 miRNA 的 功 
能 。 在 研究 miRNA 之 初 ,人 们 主要 识别 miRNA 和 它们 的 靶 基 因 , 并 为 此 开发 了 很 多 预测 靶 基 
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这 种 miRNA 和 基因 之 间 多 对 多 的 复杂 调控 关系 , 即 靶 基因 多 样 性 和 miRNA 协 同性 ,促使 研究 
人 员 假 设 miRNA 通 过 调控 它们 共同 的 靶 基 因 组 成 一 个 调控 模块 参与 复杂 的 生物 学 过 程 。 

尽管 miRNA 调 探 机 制 的 研究 有 了 很 大 的 进展 ,关于 miRNA 功 能 的 一 些 基础 的 问题 还 是 
没有 弄 清 楚 。 比 如 : 在 特定 的 条 件 下 ,哪些 miRNA 表 达 了 ? 哪些 基因 表达 了 ? 表达 的 miRNA 
和 基因 之 间 有 什么 样 的 关系 ? miRNA 通 过 调节 哪些 壮 基因 的 表达 进而 对 生物 学 过 程 调 控 ? 
累积 的 实验 结果 表明 并 不 是 单个 miRNA 导 致 表 型 的 变化 ,而 是 多 个 miRNA 同 时 靶 向 细胞 过 
程 中 的 重要 组 分 进而 调控 生物 过 程 。Mavrakis 实 验 表明 miR-9b , miR-20a, miR-26a, miR-9 
和 miR-223 通过 协同 调控 肿瘤 抑制 基因 PTEN 、BIM 、PHF6 、NF1 和 FBXW7 促 进 T 细 胞 急性 淋 
PLE ET IIS BS Az FEE o 

为 了 了 解 miRNA 在 复杂 细胞 系统 中 的 调控 机 制 , 在 miRNA 和 mRNA 复杂 调控 关系 中 识 
别 出 功 能 模块 非常 重要 。2005 年 , Yoon 等 人 提出 了 miRNA-mRNA 调 控 模 块 的 概念 , 即 一 组 
共同 参与 相同 生物 学 过 程 的 miRNA 和 其 靶 基 因 。 他 们 基于 序列 匹配 程度 来 识别 miRNA 调 
探 模 块 , 体 现 不 出 特定 条 件 下 miRNA 靶 关系 的 激活 状态 。 而 miRNA 和 mRNA 表达 谱 能 够 很 
好 地 反映 miRNA 和 mRNA 在 特定 条 件 下 的 激活 状态 ,整合 miRNA 表 达 谱 和 mRNA 表达 谱 对 
于 识别 特定 条 件 下 激活 的 miRNA-mRNA 调 控 模 块 有 很 大 的 帮助 。 随 独 对 miRNA 的 进一步 
人 研究 和 越 来 越 多 的 同步 检测 的 miRNA 表 达 谱 和 mRNA 表 达 谱 的 出 现 ,识别 条 件 特异 的 高 置 
信 的 miRNA-mRNA 调 探 模 块 成 为 可 能 。 在 本 文中 ,我们 介绍 两 种 不 同 整合 miRNA 表 达 谱 和 
mRNA 表达 谱 的 方法 来 识别 miRNA 调 控 模 块 。 一 是 直接 整合 miRNA 表 达 谱 和 mRNA 表达 谱 ， 
即 基于 miRNA 和 mRNA 之 间 逆 向 共 表 达 的 关系 。 二 是 间接 整合 miRNA 表 达 谱 和 mRNA 表达 
谱 , 即 基于 miRNA 表 达 一 致 和 mRNA 表达 一 致 性 。 

直接 整合 miRNA 表 达 谱 和 mRNA 表达 谱 的 方法 要 求 miRNA 表 达 谱 和 mRNA 表达 谱 来 目 
同一 组 样本 ,这 些 配对 的 表达 谱 能 够 同时 反映 miRNA 和 mRNA 在 同一 种 状态 下 活性 。Peng 
等 检测 了 30 个 HCV 阳性 或 阴性 人 类 肝脏 活 组 织 样本 的 miRNA 和 mRNA 表达 谐 。miRNA 主 要 
是 通过 降解 靶 基 因 mRNA 水 平 来 行使 功能 ,具有 逆 回 相关 的 miRNA-mRNA 关 系 对 被 认为 是 
在 HCV 条 件 下 激活 的 。 通 过 计算 miRNA 和 mRNA 之 间 的 皮尔 森 相 关系 数 ,寻找 逆向 相关 的 
miRNA-mRNA 关 系 对 。 结 合 miRNA 和 靶 基 因 在 序列 水 平 上 的 调控 关系 ,构建 出 特定 条 件 下 
激活 的 miRNA-mRNA 二 部 图 。 人 们 可 以 在 这 个 二 部 图 上 寻找 最 大 的 完全 连接 的 子 二 部 图 。 

间接 整合 miRNA 表 达 谱 和 mRNA 表达 谱 的 方法 不 要 求 miRNA 表 达 谱 和 mRNA 表达 谐 来 
自 同一 组 样本 ,但 是 miRNA 表 达 谱 和 mRNA 表 达 谱 应 该 针对 相同 的 表 型 。Joung 等 人 开发 了 
一 种 基于 群体 的 概率 学 习 算 法 ,通过 整合 miRNA 靶 基因 信息 、miRNA 表 达 谱 和 mRNA 表达 
谱 来 识别 一 致 miRNA-mRNA 调 控 模块 (图 10-4 )。miRNA 表 达 一 致 性 mRNA 表达 一 致 性 和 
miRNA 与 nRNA 在 序列 上 的 绑 定 程度 是 识别 miRNA-mRNA 调 挖 模块 的 三 个 组 成 部 分 。 计 算 
miRNA 和 mRNA 各 自 皮 尔 森 相关 系数 和 miRNA 与 nRNA 在 序列 上 的 绑 定 程度 ,把 这 三 个 参 
数 输入 到 遗传 算法 中 ,通过 迭代 ,使 目标 函数 达到 最 优化 ,进而 获得 miRNA-mRNA 调 控 模 块 
( ]10—5 Jo 
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图 10-5 基于 间接 整合 miRNA 和 mRNA 表达 谱 识 别 miRNA 一 mRNA 调控 模块 
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四 、 新 一 代 测 序 检测 miRNA 转 录 组 》》 


新 一 代 测 序 技术 又 称 作 深度 测序 技术 ,主要 特点 是 测序 通 量 高 ,测序 时 间 和 成 本 与 第 
一 代 测 序 技术 相 比 显著 下 降 。 转 录 组 是 指 特定 细胞 在 某 一 功能 状态 下 所 能 转录 出 来 的 所 
有 RNA 的 总 和 ,包括 mRNA 和 非 编 码 RNA( non-coding RNA )。 非 编码 RNA 又 包括 : tRNA, 
rRNA, miRNA, 、piRNA 和 long ncRNA“. RNA-Seq 利用 高 通 量 测序 技术 对 组 织 或 细胞 中 所 
有 RNA( 即 是 整个 转录 组 ) 反 转录 而 成 的 cDNA 文库 进行 测序 ,通过 统计 相关 读 段 ( read ) 数 
计算 出 不 同 RNA 的 表达 量 ,发 现 新 的 转录 本 ; 如 果 有 基因 组 参考 序列 ,可 以 把 转录 本 映射 回 
基因 组 ,确定 转录 本 位 置 . 剪 切 情 况 等 更 为 全 面 的 遗传 信息 。 由 于 RNA-seq 是 对 细胞 的 整个 
转录 组 进行 测序 , 它 能 同时 检测 映射 的 转录 区 域 和 基因 表达 ,动态 的 量化 整个 转录 组 的 表达 
水 平 ,区 分 不 同 的 转录 本 亚 型 。 

miRNA 是 一 类 大 小 为 21~23nt 的 非 编 码 小 RNA 分 子 , 通 过 和 和 靶 基 因 3” 非 翻译 区 结合 引 
导 RNA 诱 导 的 沉默 复合 体 降 解 其 靶 或 阻碍 其 靶 的 翻译 。miRNA 存 在 于 各 种 真 核 生 物 中 , 广 
泛 参 与 细胞 增殖 E .代谢 及 分 化 等 过 程 。 最 近 研 究 表明 , miRNA 在 疾病 的 发 生发 展 过程 
中 也 具有 重要 的 作用 ,在 诊断 和 治疗 疾病 上 有 光明 的 应 用 前 景 。 但 是 目前 研究 miRNA 的 主 
要 方法 是 通过 定时 定量 的 PCR 进 行 检测 ,这 些 方法 主要 关注 miRNA 的 表达 ,并 局 限于 人 研究 
那些 序列 信息 和 二 级 葵 环 结构 信息 已 知 的 miRNA ,无 法 寻找 和 发 现 新 的 miRNA 分 子 。 现 在 
已 有 专门 用 于 miRNA 组 的 测序 技术 miRNA-seq, 它 能 够 直接 对 样本 中 指定 大 小 的 所 有 
miRNA 分 子 进行 高 通 量 测序 ,在 无 需 任何 参考 序列 的 条 件 下 人 研究 miRNA 的 表达 谱 , 并 在 此 基 
础 上 鉴定 新 的 miRNA 分 子 , 从 而 进行 更 加 深入 的 分 析 ( 图 10-6 )。 
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图 10-6 miRNA 一 seq 的 文库 构建 及 测序 过 程 
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(—) miRNA 一 seq 流 程 


miRNA-seq 与 RNA-seq 不 同 之 处 在 于 文库 制备 的 过 程 中 对 于 样本 的 处 理 , miRNA-seq 
在 文库 制备 中 首先 从 总 的 RNA 分 子 中 提取 长 度 为 21~23 个 碱 基 左右 的 小 RNA; 然后 对 提取 的 
RNA 5 ” 端 连 接 接头 并 纯化 ,再 对 3” 端 连接 接头 并 纯化 ; 然后 用 随机 引物 和 反 转 录 酶 从 RNA 
合成 cpDNA 片段 ,然后 利用 凝 胶 电泳 实验 对 样本 进行 纯化 ; cDNA 文库 制备 完成 后 就 可 以 进行 
测序 了 。 这 样 测序 得 到 的 将 是 全 部 的 miRNA 转 录 本 ,研究 人 员 可 以 对 miRNA-seq 数 据 进 行 
处 理 分 析 。miRNA-seq 可 以 一 次 性 获得 数 百 万 条 miRNA 序 列 ,能 够 快速 鉴定 出 不 同 组 织 .不 
同 发 育 阶段 ,不同 疾病 状态 下 已 知 和 未 知 的 miRNA 及 其 表达 差异 ,为 研究 miRNA 对 细胞 进程 
的 作用 及 其 生物 学 影响 提供 了 有 力 工具 。 


(二 ) miRNA 转 录 组 分 析 


1. 数据 处 理 及 分 析 如 图 10-7, miRNA-seq 的 数据 处 理 及 分 析 步 又 。 对 原始 数据 进行 
过 滤 ,去 除 那些 可 能 的 测序 错误 。 那 些 定 位 到 已 知 miRNA 前 体 序列 的 read 序 列 经 过 装配 得 到 
miRNA 表 达 数 据 ; 那些 未 被 定位 到 已 知 miRNA 的 read 序 列 可 以 用 于 发 现 潜在 的 新 的 miRNA; 
除了 miRNA read 序 列 ,也 可 以 用 于 发 现 其 余 的 small RNA 种 类 、piRNA 或 者 snoRNA。 
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图 10-7  miRNA—seqff Jk J£ Ab SER 5p Mp 7 MR 


2. 基本 数据 分 析 “得 到 原始 数据 以 后 ,首先 对 miRNA-seq 的 数据 进行 预 处 理 ,例如 进行 
Base-calling, 去 除 污 染 林 及 接头 的 序列 ,过 滤 质 量 较 差 的 read 等 。 这 样 可 以 得 到 测定 的 read 的 
长 度 ,read 的 数量 和 其 质量 。 然 后 将 经 过 预 处 理 的 read 映 射 到 参考 基因 组 上 ,可 以 得 到 各 个 
read 在 基因 组 上 的 分 布 。 然 后 将 read 装 配 成 转录 本 ,根据 read 在 参考 基因 组 上 的 位 置 ,可 以 估 
计 出 基因 的 表达 水 平 。read 数 目 与 基因 真实 表达 水 平成 正比 ,与 基因 长 度 成 正比 ,与 测序 座 
度 正 相关 。 可 以 用 RPKM 来 衡量 基因 的 表达 水 平 , 即 每 百 万 读 段 中 来 自 于 某 基 因 每 千 碱 基 长 
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度 的 读 段 数 。 








基因 区 段 计 数 m 
基因 长 度 x 测序 深度 

现在 已 有 专门 的 软件 进行 这 些 工 作 , 比 如 : rseq, DEGseq , Cufflinks§ . 

3. 高 级 数据 分 析 目前 常用 的 生物 信息 学 流程 : 利用 SHRiMP, 将 miRNA 前 体 发 来 序列 
比 对 到 成 熟 miRNA 和 较 小 的 miRNA* ,利用 得 到 的 编码 坐标 来 确定 已 知 的 miRNA。 基 本 处 理 
后 ,我 们 得 到 那些 唯一 的 序列 ,保留 它们 的 read 信 息 ,那些 唯一 的 序列 比 对 到 miRBase miRNA 
前 体 发 来 上 来 确定 成 熟 miRNA/miRNA* 序 列 。 


(三 ) 预测 新 的 miRNA 


目前 人 们 已 开发 出 多 种 算法 ,来 预测 miRNA。 但 是 所 有 方法 都 利用 了 二 级 结构 信息 , 因 
为 发 夹 结 构 的 存在 是 miRNA 的 主要 特征 。 其 中 许多 方法 还 依靠 序列 的 保守 性 来 区 分 miRNA 
候选 物 和 无 关 的 基因 组 发 来 。 另 一 些 方法 则 评估 发 夹 结 构 与 已 知 miRNA 的 序列 和 结构 相似 
度 及 其 热力 学 稳定 性 , 另 一 种 高 效 的 方法 是 探索 已 知 miRNA 周 围 的 基因 组 序列 ,因为 许多 
miRNA 都 是 成 簇 排 布 。 人 和 小 鼠 的 许多 miRNA 就 是 通过 这 种 方式 鉴定 出 的 。 当 然 ,计算 机 
预测 出 来 的 候选 miRNA 还 需要 实验 的 验证 。 

我 们 可 以 将 miRNA-seq 得 到 的 序列 与 数据 库 miBase .数据库 Refseq 、rRNA 数 据 库 、tRNA 
数据 库 进行 比 对 ,从 而 对 已 知 miRNA 进 行 注 释 。 那 些 在 已 知 数据 库 中 未 能 找到 注释 信息 的 
miRNA, 则 可 能 是 新 的 miRNA。 也 可 以 将 测序 得 到 的 序列 与 该 物种 全 基因 组 序列 进行 比 对 
分 析 ,通过 折 和 县 模型 预测 新 的 miRNA 。 

现在 已 有 专门 的 软件 进行 这 些 预 测 工 作 , 比 如 miRAnalyzer, 它 有 三 个 分 析 步 又 : 在 
miBase 数 据 库 中 发 现 有 注释 的 miRNA; 再 将 read 定 位 到 转录 序列 的 文库 (mRNA ncRNA ); 
预测 新 的 miRNA。 

利用 miRNA-seq 得 到 read 数 据 , 首 先 去 除 低 质量 的 read 没有 3 ”接头 的 read 或 低 复杂 度 
的 read ,选择 成 熟 miRNA 长 度 的 read ,然后 将 read 处 理 成 那些 唯一 的 序列 。 获 得 高 质量 的 唯 
一 序列 后 ,将 其 比 对 到 参考 基因 组 上 ,然后 通过 整合 单个 的 read 比 对 的 序列 数据 来 确定 序列 
Rs ,再 对 复 进 行 优 化 ,得 到 候选 得 。 再 使 用 miRNA 的 验证 工具 ,通过 分 析 miRNA 的 前 体 发 
夹 的 预测 的 二 级 结构 来 对 候选 簇 进行 分 析 , 从 而 得 到 miRNA 的 基因 结构 。 这 样 得 到 的 基因 
结构 有 已 知 的 还 有 未 知 的 ,就 可 以 预测 新 的 mi RNA。 对 于 那些 未 定位 到 已 知 miRNA 前 体 的 
read 序 列 ,继续 将 他 们 映射 到 整个 基因 组 上 。 对 于 精确 定位 到 基因 组 上 的 read 利 用 现 有 的 软 
件 ( 如 Vienna package ) JT RV RNA ,从 而 得 到 一 些 假 定 的 miRNA 发 来 结构 ,然后 对 这 些 发 夹 
结构 进行 过 滤 , 得 到 具有 单个 环 的 发 来 结构 的 假定 的 成 熟 的 miRNA ,这 些 miRNA 作 为 可 能 正 
确 的 发 来 。 对 他 们 再 进行 折 炙 过滤 ,就 可 以 得 到 具有 正确 茎 环 结构 的 新 的 miRNA。 


(四 ) 比较 不 同 miRNA 之 间 的 表达 差异 


利用 miRNA-seq 数 据 我 们 可 以 得 到 每 个 miRNA 的 表达 水 平 ;继而 可 以 比较 它们 之 间 的 
表达 差异 ,也 可 以 根据 miRNA 所 在 的 复 来 分 析 不 同 复 的 差异 表达 。 可 以 利用 R Bioconductor 
软件 包 、DeSeq 来 进行 miRNA 差 异 表 达 分 析 。 


RPKM= ( 10-1) 
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(E) 发 现 已 知 miRNA 的 新 亚 型 


RNA 序 列 的 变异 可 以 导致 mRNA 的 不 同 的 isomiRs。miRNA 的 isomiRs 非 常 普遍 ,他 们 可 
能 是 miRNA 在 生物 起 源 中 的 修剪 或 切割 所 致 。 通 过 分 析 miRNA 序 列 内 部 变异 和 3 ” 端 变异 
可 以 发 现 miRNA 的 isomiRs。 在 比 对 到 miRBase 前 体 发 来 后 ,分 析 那 些 没有 匹配 到 miRNA 参 考 
基因 的 3” 端 变异 。 那 些 序 列 的 改变 导致 该 序列 没有 匹配 到 前 体 发 来 ,根据 他 们 是 否 与 已 知 
的 miRNA 的 编辑 过 程 一 致 来 进行 分 类 。 

总 之 , miRNA-seq 方 法 可 以 产生 关于 small RNA 的 大 量 数据 , 即 miRNA 转 录 组 的 数据 ,很 
好 地 刻画 miRNA 转 录 组 的 信息 。 从 这 些 数 据 中 我 们 不 仅 可 以 得 到 miRNA 的 表达 信息 ,发 现 
新 的 miRNA ,预测 miRNA 的 靶 基 因 ,检测 差异 表达 的 miRNA ,还 可 以 得 到 别 的 小 RNA 的 信息 ， 
例如 piRNA、snoRNA。 
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Section 3 miRNA Regulatory Network 


一 .miRNA 转 录 调 控 网 》》 


一 个 生物 体 通 常 由 上 百 种 细胞 类 型 组 成 ,这 些 细 胞 具有 同一 套 遗 传 信 息 ,然而 它们 却 在 
生物 体 中 行使 着 截然 不 同 的 功能 。 研 究 者 们 认为 生物 体 中 细胞 的 状态 依赖 于 基因 组 的 染色 
质 状态 。 染 色 质 状态 能 够 标记 基因 组 的 动态 调控 模式 ,也 就 是 说 对 于 不 同类 型 的 细胞 ,它们 
的 基因 调控 模式 不 尽 相 同 。 细 胞 或 者 组 织 特异 的 基因 调控 模式 影响 基因 的 表达 ,进而 影响 
基因 编码 蛋白 质 的 功能 。 因 此 ,理解 基因 的 转录 调控 网 络 对 于 揭示 细胞 发 育 和 分 析 细 胞 状 
态 有 至 关 重 要 的 作用 。 在 基因 转录 调控 网 络 中 ,尤为 重要 的 两 类 反 式 作用 因子 包括 转录 因 
子 ( transcriptional factor, TF ) 和 miRNA。 其 中 , TE 通 过 特异 性 地 识别 靶 基 因 上 游 和 ” 冰 特 是 
序列 (启动 子 ), 与 其 特异 结合 进而 激活 基因 的 转录 。miRNA 的 种 子 序 列 在 RNA 诱 导 的 沉默 
复合 物 作 用 下 特异 性 识别 . 绑 定 靶 基 因 的 3”UTR ,基于 翻译 抑制 和 mRNA 降解 两 种 机 制 在 转 
录 后 水 平 调节 基因 的 表达 。 因 此 ,基因 网 络 中 两 类 重要 的 调控 子 ( TF 和 miRNA ) 在 不 同 层 面 
(转录 和 转录 后 水 平 ) 调 控 基因 的 表达 。 大 量 的 实验 或 者 计算 机 靶 基因 预测 算法 分 析 表 明 ， 
一 个 调控 子 ( TF 或 者 miRNA ) 都 能 够 调节 多 个 甚至 上 百 个 基因 的 表达 (图 10-8 ), 一 个 基因 的 
表达 通常 会 受到 多 个 调控 子 的 作用 。 越 来 越 多 的 证 据 显 示 , 生 物 过 程 中 一 个 基因 同时 受到 


两 种 调控 子 作 用 的 现象 是 普遍 发 生 的 (图 10-9 ), 这 说 明 , TF 和 miRNA 在 基因 调控 网 络 中 存 
在 着 互 作 关 系 。 


目前 ,研究 者 们 通过 基因 芯片 或 者 高 通 量 测序 技术 检测 基因 的 表达 ,扫描 基因 组 上 TF 的 
模 体 ( motif ) 并 分 析 其 富 集 情况 ,利用 计算 机 预测 或 者 实验 方法 识别 TF 的 靶 基 因 ,整合 这 些 
信息 进而 构建 TF 介 导 的 基因 转录 调控 网 络 。 对 于 miRNA 而 言 , 许 多 靶 基 因 预 测算 法 都 能 
识别 miRNA-mRNA 调 控 关 系 。 同 时 ,在 miRNA 葛 基因 预测 研究 中 ,研究 者 发 现 TF 是 miRNA 
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图 10-8 TF 和 miRNA 调 控 多 个 基因 示意 图 
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图 10-9 ”两 种 调控 子 (TF 与 miRNA) 同时 调控 一 个 基因 


的 一 类 重要 的 和 基因 ， miRNA 通 过 调节 TF 进而 影响 下 游 蛋白 质 表达 ， 这 一 证 据 为 基因 调控 
网 络 中 TF 与 miRNA 存 在 关联 提供 了 支持 。 随 后 , 越 来 越 多 的 研究 结果 都 显示 在 基因 表达 调 
控 过 程 中 普遍 存在 TF 和 miRNA 的 互 作 模 式 ,并 且 基 于 实验 方法 证 实 了 调控 子 互 作 模式 在 生 
物体 发 育 过 程 中 的 重要 作用 。 此 外 , miRNA 转 染 和 敲 除 实验 是 预测 miRNA 功 能 的 有 效 方 
ik, Hamoo 等 人 利用 转 染 癌症 相关 miRNA 得 到 的 基因 表达 数据 ,结合 TF 的 靶 基 因 和 集合 ,利用 
Wilcoson 检 验 和 K-S 检 验方 法 比较 TF 的 靶 基 因 与 非 靶 基因 的 表达 差异 情况 ,进而 识别 了 特定 
转 染 的 miRNA 与 相应 条 件 下 显著 激活 的 TF 的 关联 ,最 终 构 建 了 与 癌症 相关 的 miRNA 调 控 TF 
网 络 。 该 研究 结果 表明 对 不 同 的 miRNA 进 行 干扰 时 ,生物 体会 产生 与 其 相对 应 的 TF 应 答 , 进 
而 调 世 癌症 过 程 中 的 相关 生物 学 通路 。 而 且 , 基 于 双 表 达 谱 数据 分 析 , 发 现 TF 与 miRNA 对 基 
因 表 达 的 协同 调控 模式 能 够 为 精确 分 类 细胞 形态 提供 可 靠 依据 。 因 此 ,识别 TF-miRNA 互 作 
模式 和 构建 TF-miRNA 调 控 网 络 对 于 揭示 生物 体 复杂 的 生理 机 制 ,进而 解释 复杂 疾病 的 发 病 
机 制 提供 依据 。 

为 了 系统 性 地 识别 TF-miRNA 互 作 模式 ,理解 基因 的 转录 和 转录 后 调控 机 制 ,揭示 生 物 
体 复杂 的 调控 过 程 ,许多 生物 信息 学 研究 者 已 经 开始 利用 各 种 数据 资源 来 构建 TF-miRNA 调 
控 网 络 。 

靶 基 因数 据 资 源 : 靶 基 因 和 集合 是 TF 和 miRNA 功 能 预测 中 的 一 个 重要 的 数据 资源 ,大 量 
研究 都 利用 调控 子 (TF 和 miRNA ) 计 基因 的 功能 来 预测 分 析 调 控 子 可 能 具有 的 生物 学 功能 ， 
并 且 许 多 预测 结果 已 经 得 到 实验 证 实 。 那 么 , 靶 基因 是 否 可 用 于 预测 TF 和 miRNA 的 关联 ? 

Shalgi 等 人 通过 对 TF 和 miRNA 计 基因 的 重 芭 现象 的 研究 发 现 , 具 有 相似 靶 基 因 和 集合 的 调 
控 子 (miRNA 对 和 TF-miRNA 对 ), 它 们 倾 问 于 存在 互 作 关系 。 因 此 ,基于 TF 和 miRNA 的 靶 基 
因数 据 , 通 过 寻找 显著 共享 靶 基 因 的 TF 和 miRNA ,能 够 识别 TF-miRNA 互 作 关 系 。 这 种 互 作 
关系 分 别 在 转录 和 转录 后 水 平 控制 基因 的 表达 ,形成 了 基因 的 TF-miRNA 共 调控 网 络 。 

【 例 10-1 基于 共同 靶 基 因 构 建 miRNA 转 录 调 控 网 

1. 数据 准备 ”基于 共享 靶 基 因 构 建 mRNA-TF 转 录 调 控 网 络 需 要 两 种 类 型 数据 ; 
miRNA 及 其 靶 基 因数 据 、TF 及 其 靶 基因 数据 。 为 此 , Shalgi 等 人 从 TargetScan 和 PicTar 两 个 数 
据 库 中 获取 保守 的 miRNA 与 其 靶 基 因数 据 , 从 UCSC 中 获取 TF 与 其 保守 的 结合 位 点 (TFBS ) 
和 miRNA 丢 基因 的 序列 信息 

2. 网 络 构 建 得 到 上 述 数据 后 ， 通过 寻找 miRNA 靶 基因 上 是 否 有 TF 结 合 位 点 来 确定 该 
TRAY SEEDS, 再 建立 miRNA-gene 和 矩阵 和 TF-gene 和 矩阵 ， 年 阵 内 有 调控 关系 的 元 素 对 取 值 为 1， 
反之 则 为 0。 通 过 这 两 个 矩阵 寻找 共享 靶 基因 的 miRNA-TF 对 ,再 利用 超 几 何 检验 和 随机 性 
检验 确定 显著 共享 靶 基 因 的 miRNA-TF 对 。 
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首先 ,对 每 一 对 miRNA-TF 进 行 超 几 何 检 验 ,计算 公式 如 下 : 


nx 

heh Med 

BORN MT ( 10-2) 
N 


其 中 , M 为 含有 至 少 一 个 TFBS 的 总 的 miRNA 靶 基因 个 数 , N 为 该 对 调控 子 中 miRNA 丢 基 
因 个 数 , K 为 该 对 调控 子 中 TF 靶 基因 个 数 , x 为 该 对 miRNA 和 TF 共享 的 靶 基 因 个 数 。 计 算出 p 
值 以 后 需 进 行 FDR 校 正 , 这 里 取 FDR < 0.3。 如 此 我 们 分 别 从 TargetScan 和 PicTar 中 得 到 111 对 
miRNA-TF 和 1263 对 miRNA-TF。 

然后 ,再 对 上 述 得 到 的 miRNA-TF 对 进行 随机 性 检验 。 我 们 随机 选取 具有 靶 回 关系 的 一 
XTmiRNA( i ) -gene( 1 ) 和 一 对 TF(j )-gene( 2 ) HmiRNA( i ) 与 gene(2 )、TF(j ) 与 gene( 1 ) 3€ 
有 丢 回 关系 ,交换 它们 的 边 , 即 将 miRNA(i )-gene( 1 ) 和 TF(j ) -gene(C 2 ) 的 取 值 由 1 变 为 0， 
将 miRNA(i ) -gene( 2 ) 和 一 对 TF(j )-gene( 1 ) 的 取 值 由 0 变 为 1, 以 保证 每 个 miRNA 和 TF 的 
靶 基 因 个 数 不 变 ,每 个 基因 对 应 的 miRNA 和 TF 个 数 不 变 。 该 方法 为 边 交 换 , 我 们 建立 1000 
个 随机 的 miRNA-gene 和 矩阵 和 TF-gene 和 矩阵 ,其 中 每 对 和 矩阵 都 进行 了 100 000 次 边 交 换 。 我 们 
对 这 1000 个 随机 得 到 的 和 矩阵 对 及 原始 的 矩阵 对 中 的 所 有 miRNA-TF 对 计算 MeeVMin 得 分 : 


min ni J|, “as )|) ( 10-3 ) 


其 中 , Targets( j ) 为 第 ;个 miRNA 的 靶 基 因 人 集合, Targets CJ ) 为 第 /个 TEF 的 靶 基 因 人 集合。 对 
于 第 ;个 miRNA 和 第 /个 TF ,随机 性 检验 的 p 值 为 1000 个 随机 得 到 的 靶 集 合 对 中 MeeVMin 得 分 
大 于 原始 靶 集 合 对 中 MeeVMin 得 分 的 靶 集 合 对 所 占 的 比例 ,再 对 所 得 到 的 P 值 进行 FDR 校 正 
(FDR < 0.3 )。 

我 们 发 现 , 超 几 何 检 验 得 到 的 miRNA-TF 对 中 大 部 分 都 通过 了 随机 性 检验 (TargetScan 
92%, PicTar 72% )。 经 过 超 几 何 检 验 和 随机 性 检验 后 ,我 们 在 TargetScan 和 PicTar 中 分 别 得 
到 104 对 和 916 对 miRNA-TF 对 ,将 这 些 得 到 的 miRNA-TF 对 去 重 以 后 就 可 以 构建 一 个 简单 的 
miRNA 转 录 调 控 网 络 。 

Zhou 等 人 利用 TargetScan 算 法 和 TRANSFAC 数 据 库 分 别 获得 miRNA 和 TF 的 靶 基 因 和 集合 ， 
同时 基于 靶 基 因 的 表达 数据 ,利用 Fisher 精 确 检 验 和 Byesian 关 联 分 析 算 法 计算 任何 一 对 调 
控 子 (TF 对 、miRNA 对 和 TF-miRNA 对 ) 协同 调 厄 靶 基 因 的 显著 性 ,结果 发 现 大 量 的 TF 对 和 
miRNA 对 共享 靶 基 因 ,同时 ,基于 调控 子 间 共享 靶 基因 分 析 , 识 别 了 一 些 TF-miRNA 天 联 对 ， 
它们 具有 显著 的 鞭 基 因 重 全 ,暗示 了 这 些 TF 和 miRNA 在 基因 调控 过 程 中 具有 相似 的 功能 。 

基因 表达 数据 资源 : 具有 相同 或 者 相似 表达 模式 的 基因 功能 相似 ,因此 ,一 些 研 究 通 过 
构建 共 表达 网 络 来 预测 基因 的 功能 。TF 和 miRNA 通 过 其 靶 基 因 行 使 功能 ,所 以 ,基于 两 类 调 
控 子 的 靶 基 因 表 达 相 似 性 ,识别 TF 和 miRNA 关 联 是 可 行 的 。Su 等 人 利用 Pearson 相 关系 数 计 
算 TF 和 miRNA 胃 基因 的 表达 模式 相似 性 ,基于 相似 的 靶 基 因 表 达 模 式 构建 了 TF-miRNA 模 
块 ( module )。 结 合 TF-miRNA 关 联 模块 和 TF 的 motif 扫 描 方法 ,最 终 构建 了 基因 调控 网 络 ,网 
络 包括 TF , miRNA 基因 以 及 转录 调控 和 转录 后 调控 关系 。 

上 述 的 方法 基于 靶 基 因 或 者 基于 表达 数据 识别 了 TF-miRNA 关 联 , 然 而 这 些 方法 并 不 
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能 明确 TF-miRNA 的 因果 关系 。 相 对 于 miRNA 转 录 后 调节 TF 的 表达 而 言 , 如 何 识别 TF 调节 
miRNA 的 转录 要 更 加 复杂 和 困难 一 些 。 原 因 在 于 绝 大 多 数 miRNA 的 初始 转录 本 是 未 被 注释 
的 ,因此 ,无 法 直接 从 数据 库 中 获得 TF 在 miRNA 上 的 绑 定 。 为 了 揭示 miRNA 的 转录 和 识别 
TF 调节 的 miRNA 关 系 , 需 要 开发 有 针对 性 的 方法 识别 miRNA 上 游 的 调控 元 件 。 最 常 用 的 方 
法 是 基于 motif 扫 描 ,在 miRNA 前 体 上 游 的 一 定 范 围 区 间 内 (如 2kb、5kb 或 者 10kb ) 寻找 TF 的 
motif 富 集 。 如 果 miRNA 上 游 选 定 区 间 内 出 现 特定 TF 的 motif, 则 将 这 个 TF 作 为 该 miRNA 的 预 
测 调控 子 , 即 这 个 TF 能 够 激活 该 miRNA 的 转录 。 这 种 TF-miRNA 转 录 调 控 模 式 在 基因 调节 
中 发 挥 作用 。 如 图 10-10 所 示 , A 图 中 p53 同 时 激活 mir-122a 和 下 游 靶 基因 CCNMC7 的 转录 , 同 
时 mir-122a 靶 向 结合 CCNG1 的 3” UTR ,抑制 CCMCG7 的 翻译 或 者 降解 其 mRNA ,这 个 调控 模式 
中 p53 和 mir-122a 对 下 游 靶 基因 CCNG1 显 示 相 反 的 调节 效应 , p53 转 录 激 活 mir-122a 天 系 在 
控制 CCNG71 的 表达 中 显示 出 抵消 性 地 作用 方式 。 人 研究 发 现 这 种 不 一 致 的 TF-miRNA 调 控 结 
构 对 于 维持 细胞 中 一 些 关 键 蛋 白 的 稳 态 具有 重要 的 作用 。 此 外 ,有 研究 将 这 种 不 一 致 调控 
模式 称 为 一 种 缓冲 机 制 , p53 和 mir-122a 共 同 作 用 于 下 游 靶 基因 能 够 有 效 地 缩短 应 人 深 延迟 ， 
进而 产生 有 效 的 噪音 缓冲 ,以 及 精确 的 识别 和 维持 细胞 的 稳定 状态 。 另 一 种 调控 模式 如 图 
10-10 中 B 图 所 示 , p53 调控 mir-106a 的 转录 和 抑制 RB71 的 转录 ,同时 RB1 是 mir-106b 的 靶 基 
因 ,说 明 p53 和 mir-106a 协 同 作 用 于 RB1 的 表达 。 其 中 , p53 调 mir-106a 转 录 表 现 为 一 致 性 
地 抑制 RB1 基 因 , 这 种 调控 模式 在 基因 表达 调控 网 络 中 起 促进 作用 。 











图 10-10 p53% A miRNA R ABH 
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状态 过 程 中 发 现 ,特定 组 蛋白 标记 可 以 准确 地 刻画 基因 组 上 的 调控 元 件 , 如 启动 子 、 增 强 
子 、 绝 缘 子 ,而 这 些 调控 元 件 与 TF 的 绑 定 及 转录 的 起 始 、 延 伸 密 切 相 关 。 例 如 ,基因 组 上 
明显 的 H3K4me3 信 和 号 标志 着 基因 的 转录 起 始 , 这 类 信号 主要 分 布 在 基因 的 启动 子 区 域 ,而 
H3K27me3 标 志 着 基因 的 转录 抑制 , 它 倾 问 于 分 布 在 基因 组 上 的 失 活 区 域 。 因 此 ,目前 除了 
在 miRNA 前 体 上 游 一 定 区 域内 直接 扫描 TF 的 motif{ 算 法 ,许多 研究 者 利用 全 基因 的 单个 组 蛋 
白 标 记 或 者 整合 多 个 特定 组 蛋白 标记 来 系统 地 识别 基因 组 上 的 调控 元 件 ,如 miRNA 的 启动 
子 结 构 。 这 类 方法 相 比 前 面 的 方法 , 它 的 优势 在 于 利用 了 新 一 代 测 序数 据 ( CHIP-Seq ) 检测 
的 组 蛋白 标记 ,能 够 更 加 精确 地 定位 TF 的 绑 定 位 点 。 此 外 , CHIP-Seq 检 测 的 组 蛋白 标记 谱 
对 于 基因 组 注释 ,染色 质 状态 检测 及 关联 基因 活性 的 确定 提供 了 可 靠 的 分 析 方 法 。 这 种 方 
法 能 够 预测 特定 细胞 条 件 下 处 于 激活 状态 的 调控 元 件 和 它 所 作用 的 靶 基 因 , 从 而 能 够 检测 
到 具有 活性 的 调控 关系 。 同 时 ,利用 CHIP-Seq 检 测 的 特定 TF 的 全 基因 绑 定 图 谱 , 将 TF 的 绑 
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定 信和 号 映射 到 预测 的 miRNA 的 活性 启动 子 上 ,从 而 检测 到 该 细胞 条 件 下 激活 的 TF-miRNA 调 
控 关 系 。 例 如 Mason 等 人 利用 鼠 类 多 个 细胞 系 ( 包 括 胚胎 干细胞 和 成 体 细 胞 ) 中 检测 的 全 基 
因 H3K4me3 信 号 识别 了 miRNA 的 启动 子 。 基 于 CHIP-Seq 检 测 的 4 个 核心 TFs( OCT4 、SOX2、 
NANOGHE, TCF3 ) 的 绑 定 图 谱 预 测 了 具有 显著 富 集 TF 绑 定位 点 的 miRNA 局 动 子 ,发 现 4 个 
TF 共同 作用 于 胚胎 干细胞 中 高 表达 的 mir-290-295 簇 的 启动 子 ,进而 激活 了 该 miRNA 簇 的 
转录 。 同 时 OCT4、SOX2、NANOG 和 TCF3 还 激活 下 游 信 号 通路 和 转录 调控 通路 中 的 一 些 重 
要 蛋白。 结果 表 明 在 鼠 胚 胎 干 细胞 的 发 育 分 化 过 程 中 , miRNA 参 与 调节 了 核心 的 转录 调控 
网 络 。 如 图 10-11 所 示 , OCT4、SOX2 、NANOG 和 TCF3 直 接 作 用 于 下 游 Lefty1 和 Lefty2 的 启动 
子 , 这 两 个 基因 都 在 胚胎 干细胞 中 呈现 高 表达 状态 。Mir-290-295 族 的 启动 子 上 也 显著 定 
集 0CT4、SOX2 、NANOG 和 TCF3 的 绑 定 ,同时 , 它 在 转录 后 靶 回 基因 Lefty1 和 Lefty2。 因 此 ， 
胚胎 干细胞 中 的 核心 TF 促进 了 Leftyl1 和 Lefty2 的 表达 。 同 时 在 转录 后 水 平 , 一 组 被 核心 TF 激 
活 的 活性 miRNA 通 过 与 基因 3”UTR 结 合 进而 微调 这 些 信号 通路 中 的 重 白 质 表 达 。 这 个 TF- 
miRNA 调 控 结 构 与 上 面 的 不 一 致 性 调节 模式 相似 , 它 同 样 能 够 维持 胚胎 干细胞 环境 的 稳 态 ， 
同时 TF 和 miRNA 对 下 游 壮 基因 的 协同 调控 模式 更 加 细致 地 揭示 了 豚 胎 干 细胞 中 介 导 其 增殖 
和 分 化 的 复杂 作用 机 制 。 
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图 10-11 miRNA 参 与 胚胎 干细胞 的 核心 调控 环 路 


二 、miRNA 功 能 协同 网 》》 


miRNA 与 miRNA 之 间 的 协同 作用 ,是 最 近 几 年 才 逐 渐 被 人 们 所 关注 的 科研 方向 。 与 不 
同 基 因 之 间 的 相互 作用 一 样 , 不 同 的 miRNA 在 功能 上 同样 有 着 相当 多 的 联系 ,人 们 也 正在 努 
力 地 尝试 将 其 全 面 ,准确 地 刻画 出 来 。 而 通过 网 络 这 样 一 种 直观 可 视 的 方式 ,将 相互 之 间 
存在 联系 的 miRNA 以 “ 边 ” 的 形式 连接 起 来 ,从 而 构建 出 miRNA 的 协同 网 络 ,显然 是 比较 容 
易 为 人 们 所 接受 的 手段 之 一 。 事 实 上 ,目前 对 miRNA 协 同 作用 的 研究 所 采用 的 方法 ,往往 也 
正 是 通过 构建 miRNA 协 同 网 络 来 进行 数据 分 析 和 结果 描述 。 

由 于 单个 miRNA 所 对 应 的 靶 点 通常 很 多 ,往往 有 几 十 甚至 数 百 个 ,因此 许多 不 同 的 
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miRNA 之 间 都 存在 着 大 量 相 同 的 靶 点 。 再 结合 “生物 体内 存在 大 量 的 共 表 达 的 miRNA” 这 
一 现象 ,人 们 目 然 就 会 猜测 : 不 同 miRNA 之 间 是 否 存在 某 种 功能 上 的 联系 ?” 进而 又 会 想到 : 
调控 同一 基因 的 不 同 miRNA 之 间 是 否 存 在 着 某 种 协调 的 机 制 ,使 得 它们 能 够 共同 作用 以 维 
持 基 因 的 正常 表达 水 平 ? 答案 是 肯定 的 。 得 益 于 miRNA 的 敲 除 、 转 染 方法 ,大 量 的 miRNA 
敲 除 ( 或 转 染 ) 实验 都 显示 出 : 大 多 数 的 单一 miRNA 的 异常 ,很 难 真正 影响 到 细胞 或 生物 的 
表 型 , 即 单一 miRNA 的 异常 对 于 表 型 的 直接 作用 往往 是 微乎其微 的 。 人 们 推测 这 种 情况 
正 是 由 于 miRNA 的 功能 元 余 性 造成 的 。 单 个 基因 往往 被 大 量 的 miRNA 同 时 调控 ,所 以 单一 
miRNA 的 异常 ,很 难 真 正 影响 到 某 个 特定 靶 向 基因 的 表达 。 因 此 ,寻找 那些 对 同一 生物 学 功 
能 同时 起 作用 的 miRNA 的 重要 性 就 凸现 出 来 了 。 只 有 将 这 些 miRNA 同 时 考虑 进去 ,人 们 才 
能 更 确切 的 了 解 某 一 特定 miRNA 的 异常 对 某 种 表 型 的 影响 有 和 多大。 以 某 种 疾病 为 例子 , 疾 
病状 态 下 的 差异 表达 miRNA 很 多 ,然而 只 有 了 解 那些 对 疾病 表 型 真正 起 作用 的 一 个 或 几 个 
miRNA ,才能 从 miRNA 调 控 的 角度 上 更 加 明确 该 疾病 的 发 病 机 制 ,并 针对 性 的 设计 出 更 有 效 
的 治疗 方案 。 这 一 切 都 基于 人 们 对 于 miRNA 之 间 协 同 作用 的 深入 了 解 , 同 时 也 正 是 人 们 对 
miRNA 的 协同 作用 进行 深入 人 研究 的 意义 所 在 。 

目前 ,在 分 析 miRNA 的 协同 作用 时 ,有 两 种 比较 常见 的 思路 。 传 统 的 思路 是 在 miRNA 的 
表达 谱 这 一 层面 上 进行 研究 ,分 析 在 表达 上 具有 一 定 联系 的 miRNA 是 否 共 同 参与 某 一 生物 
学 过 程 ; 而 后 , 随 着 人 们 对 miRNA 靶 基因 研究 的 逐渐 深入 ,人 们 又 可 以 从 miRNA 的 靶 基因 的 
功能 与 联系 这 一 角度 ,对 miRNA 间 的 功能 联系 也 进行 一 定 程度 上 的 描述 和 人 解释。 由 于 从 表 
达 水 平 的 层面 对 miRNA 的 功能 联系 进行 分 析 , 更 加 类 似 于 传统 的 表达 谱 分 析 , 所 以 当 Xu 等 人 
着 手 构 建 miRNA 的 协同 网 络 时 ,就 是 从 不 同 miRNA 的 共同 对 基因 是 否 具有 功能 一 致 性 这 一 
角度 入 手 的 ,从 而 能 够 较为 全 面 的 刻画 出 miRNA 间 的 协同 关系 ,并 对 miRNA 间 的 协同 作用 进 
行 更 为 深入 的 阐述 。 在 本 小 节 我 们 从 一 个 基础 的 例子 入 手 ,简要 的 分 析 以 共同 的 靶 基 因为 
基础 ,构建 miRNA 协 同 网 络 的 过 程 。 

【 例 10-2 ] 基 于 共同 靶 基 因 构 建 miRNA 协 调 网 络 

数据 : 在 构建 miRNA 协 同 网 络 时 ,对 于 最 基本 的 ,基于 共同 靶 基 因 的 方法 来 说 ,我 们 需要 
3 种 数据 : miRNA 集 .mRNA 集 以 及 它们 的 靶 向 关系 。 

网 络 构建 : 在 构建 网 络 时 ,我 们 先 构 建 一 个 miRNA 和 mRNA 的 连接 和 矩阵。 即 分 别 以 
mRNA 和 miRNA 为 矩阵 的 行 和 列 , 以 1 和 0 分 别 描述 对 应 的 miRNA 和 mRNA 是 否 存 在 靶 辐 天 
系 。 当 然 ,如 果 你 采用 了 可 以 给 出 靶 向 关系 权重 的 miRNA 邯 预测 算法 ,我 们 仍然 可 以 用 立 值 
的 形式 将 这 种 权重 新 划分 为 1 和 0, 也 可 以 根据 需要 直接 使 用 这 个 权重 来 组 成 连接 和 矩阵。 如 
果 我 们 称 这 个 矩阵 为 矩阵 4 ,那么 4 和 其 转 置 4 相 乘 ,就 得 到 了 一 个 新 的 , 行 和 列 均 为 miRNA 
的 矩阵 C, 以 描述 miRNA 与 miRNA 之 间 是 否 有 共同 的 靶 基 因 以 及 共同 靶 基因 的 个 数 (或 者 权 
重 总 和 ) 是 多 少 。 这 一 矩阵 也 可 以 用 下 式 表 示 : 


C, = 2, 4;4; ( 10-4) 


其 中 , Ci 表示 矩阵 C 中 任意 一 对 miRNA j 和 k 所 对 应 的 值 ; ;代表 靶 疝 关系 中 所 包含 的 全 
部 基因 ; 4 和 4 分 别 表 示 对 于 任意 的 基因 i, miRNAj 和 k 是 否 与 其 存在 靶 向 关系 ,或 这 种 关系 
的 强度 是 多 少 。 而 对 于 所 有 Ci 不 为 0 的 miRNA 对 ,我 们 可 以 将 其 连接 起 来 并 构成 一 个 初级 的 
miRNA 协 同 网 络 。 诚 然 , 具 有 相同 靶 基 因 的 miRNA 对 都 有 相互 协同 作用 的 可 能 ,但 对 于 不 同 
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的 miRNA 对 来 说 ,这 种 可 能 性 的 差异 是 很 大 的 。 接 下 来 ,我 们 要 做 的 就 是 以 某 种 规则 ,在 这 
个 大 的 协同 网 络 中 挑选 协同 关系 更 强烈 的 miRNA 对 所 形成 的 子 网 ,或 者 说 将 大 网 中 关系 较 
弱 的 miRNA 对 删除 。 

统计 量 和 靖 值 的 选取 : 显然 ,为 了 衡量 miRNA 对 互 作 关 系 的 强 弱 , miRNA 对 之 间 共 同 邯 
基因 的 数目 或 权重 之 和 gq 是 最 容易 想到 的 统计 量 (图 10-12 )。 对 于 那些 至 少 含有 gq 个 共同 靶 
基因 (或 者 共同 的 靶 基因 权重 总 和 达到 9 ) 的 miRNA 对 来 说 ,我 们 就 可 以 将 其 连接 起 来 ; 而 共 
同 靶 基因 数 小 于 4g 的 miRNA 对 的 协同 关系 将 被 删除 。 这 样 我 们 就 可 以 构建 出 一 个 具有 较 强 
协同 关系 的 miRNA 协 同 网 络 。 我 们 的 下 一 个 目标 就 是 找 出 “最 优 ”的 q*, 以 满足 不 同 的 需求 。 
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图 10-12 9 统计 量 示 意图 


在 这 个 例子 中 ,采用 了 保护 网 络 中 的 hub 节 点 (连通 度 较 高 的 节点 ) 的 思想 来 对 gx 进行 
优化 。 我 们 知道 随 着 4 值 的 增加 , miRNA 协同 网 络 将 逐渐 变 得 稀疏 和 “破碎 "。 如 果 我 们 定 
XL “网络 碎片 数 ” 即 不 联通 子 网 数 为 N 的 话 , 随 着 9 的 增加 , N 的 值 也 将 渐渐 升 高 。 然 而 , 随 着 
g 的 增加 , N 的 变化 速度 并 非 是 恒定 的 。 在 N 变 化 最 剧烈 时 ,说 明 大 量 的 具有 较 高 联通 度 的 节 
点 的 边 都 被 破坏 了 , 才 导致 了 网 络 整体 联通 性 的 剧烈 下 降 。 我 们 可 以 定义 此 时 的 g 值 为 最 优 
值 4*, 它 代表 了 大 量 的 与 高 连通 度 节 点 相连 的 边 的 g 值 。 为 了 求 出 g*, 我 们 可 以 尝试 不 同 的 
g 以 给 出 N 和 g 的 关系 ,进而 拟 合 出 N 和 g 的 方程 。 基 于 这 个 方程 , 按 了 入, 求 导 即 可 得 出 我 们 


所 需要 的 g#* 值 。 此 时 ,在 “破碎 ”的 miRNA 协 同 网 络 中 ,我 们 就 可 以 找到 一 个 最 大 的 ,或 几 个 
较 大 的 子 网 用 于 后 续 研 究 了 。 

当然 ,这 是 一 种 最 直接 的 选取 统计 量 和 国 值 的 方法 。 大 量 结合 其 他 数据 的 方法 都 已 经 
逐渐 被 人 们 和 采纳 了 。 比 如 我 们 在 构建 统计 量 的 时 候 ,完全 可 以 加 入 靶 基因 本 上身 的 功能 信息 
(使 用 基因 的 功能 注释 方法 )。 即 ,我们 在 考虑 miRNA 对 的 共同 靶 基 因 时 ,仅仅 考虑 那些 具有 
相同 功能 的 基因 群 。 如 果 一 对 miRNA 的 共同 靶 基 因 的 功能 完全 不 同 ,即便 它们 的 4g 值 很 大 也 
不 会 被 认为 是 具有 协同 关系 的 。 事 实 上 ,无 论 多 复杂 的 miRNA 协 同 网 络 构建 方法 ,其 根本 的 
区 别 也 无 非 是 在 这 一 步 构建 不 同 的 统计 量 , 并 选取 合适 的 国 值 而 已 。 还 有 很 多 可 行 的 思路 
能 够 用 于 统计 量 和 国 值 的 可 供 人 们 选择 ,甚至 不 需要 加 入 新 的 信息 。 比 如 在 选取 9g#* 的 时 候 ， 
征 否 可 以 考虑 到 随机 情况 下 g 与 N 的 关系 ?” 事实 上 我 们 要 做 的 也 正 是 将 那些 假 的 、 弱 的 协同 
关系 剔除 。 那 么 这 些 关 系 随 着 4 的 增加 而 减少 的 速率 和 真实 协同 关系 的 速率 显然 是 不 同 的 ， 
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那么 由 此 产生 的 N 的 增加 速率 也 是 不 同 的 ,因此 ,根据 随机 情况 下 gq-N 曲 线 与 真实 情况 下 g-N 
曲线 的 差别 ,我们 同样 可 以 找 出 更 优 的 g#*。 由 于 方法 较为 复杂 ,这 里 就 不 再 详细 叙述 了 , 仅 
供 有 兴趣 的 读者 参考 。 

最 后 需要 注意 的 是 ,在 实际 的 工作 中 人 们 往往 是 将 靶 基 因 信 息 和 miRNA 表 达 信 息 联 
合 起 来 考虑 的 。 我 们 可 以 应 用 特定 状态 (比如 癌症 ) 下 的 表达 谱 建 立 特 定 条 件 下 的 miRNA 
协同 网 络 。 虽 然 这 种 做 法 不 能 显示 出 miRNA 普 遍 存 在 的 功能 联系 ,但 它 更 有 针对 性 的 描述 
了 特定 情况 中 miRNA 的 复杂 调控 和 协同 关系 。 在 深入 了 解 这 一 疾病 状态 ,并 找 出 关键 性 的 
miRNA 群 的 过 程 中 , 它 给 人 们 带 来 了 巨大 的 方便 。 此 外 ,还 有 很 多 的 思路 和 方法 都 可 以 应 用 
于 构建 miRNA 的 协同 网 络 , 比 如 考虑 靶 基因 的 表达 或 功能 等 。 对 于 这 样 一 个 新 兴 的 科研 方 
向 来 说 ,还 有 大 量 的 问题 需要 人 们 去 解决 ,还 有 无 数 的 难关 等 待 着 人 们 去 攻克 。 

[ 例 10-3 ] 利用 TargetScan 预 测 的 靶 基 因数 据 构 建 mRNA 功能 协同 调控 网 络 并 分 析 疾 病 
miRNA 的 拓扑 性 质 

数据 准备 : 构建 miRNA-miRNA 功 能 协同 调控 网 络 需要 三 种 类 型 数据 : miRNA 一 gene 调 控 关 
系数 据 、 基 因 功 能 注释 数据 、 和 蛋白 质 互 作 数 据 。 其 中 miRNA 调 控 数 据 来 自 TargetScan5.1, 下 载 了 
保守 和 非 保 守 靶 点 数据 。 本 文 认 为 context score 夺 -0.3 才 是 潜在 的 靶 点 ,获得 了 185773 条 调控 关 
系 ,涉及 676 个 miRNA 和 15 829 个 基因 。 和 蛋白 质 互 作 数据 来 自 HPRD( HPRD_Release_8_070609 ), 
这 里 我 们 只 分 析 最 大 组 分 。 预 处 理 以 后 ,最 大 组 分 包含 8556 个 蛋白 ,33 762 个 互 作 。 基 因 的 生 
物 过 程 功 能 (简称 BP ) 注释 数据 来 日 Gene Ontology 数据库, 下载 地 址 : http: /Avww.geneontology.org, 
时 间 2009-11。 依 据 前 人 的 研究 成 果 , 我 们 只 考虑 BP 中 那些 位 于 第 四 层 或 者 更 深层 次 的 节点 。 

构建 miRNA-miRNA 功 能 协同 调控 网 络 : 当 我 们 对 数据 预 处 理 后 ,就 可 以 整合 这 三 种 类 型 
的 数据 来 识别 miRNA 功 能 协同 调控 对 ,图 10-13 表 述 了 我 们 方法 的 流程 。 首 先 ,对 每 个 miRNA 
对 ,我 们 将 它们 共 调 控 的 靶 基 因 作 为 一 个 靶 点 子 集 , 然 后 识别 这 个 靶 点 子 集中 候选 的 功能 模块 ， 
这 些 候选 功能 模块 的 寻找 是 通过 在 GO 中 BP 本 体 论 的 功能 富 集 实现 的 。 累 积 超 几何 分 布 被 用 
来 计算 该 靶 基 因子 集 在 所 有 被 考虑 的 BP 功 能 类 上 的 功能 富 集 程度 。 当 miRNA 对 至 少 调控 一 个 
候选 功能 模块 时 ,我 们 用 和 蛋白质 互 作 网 络 中 两 个 拓扑 特征 来 过 滤 出 功能 模块 ,限制 如 下 : 1) i 
个 靶 基 因 到 模块 中 其 他 靶 基 因 的 最 小 距离 都 不 大 于 给 定 的 阔 值 D1 ; i ) 模 块 的 特征 路 径 长 度 
要 小 于 D2 并 且 和 随机 情况 比较 要 显著 小 。 这 里 ,我 们 产生 了 1000 个 随机 网 络 。 作 为 严格 的 对 
照 ,随机 网 络 是 通过 保持 每 个 蛋白 的 直接 互 作 邻居 不 变 , 通 过 用 边 扰 动 的 方法 实现 。 总 之 ,功能 
模块 需要 满足 三 个 条 件 : 被 miRNA 对 共 调 控 , 宫 集 在 同一 个 CO 功能 类 中 , EAE Hf E PAR (P 
距离 近 。 这 里 ,如 果 一 对 miRNA 显 著 共 调控 至 少 一 个 功能 模块 ,我 们 就 定义 这 两 个 miRNA 是 功 








| Find miRNA pair which co—regulate at least one functional module 


Target of miBNAA G AB 


miRNA A miRNA A 








Fun Modules 
IU 人 
eo => 
"E miRNA B 
Target of miRNA B - miRNA B 





I| Construct miRNA-miRNA functional synergistic network 


Repeat part | for Any miRNA Pairs to 
een find out all functional synergism 





图 10-13 功能 协同 miRNA 对 的 识别 流程 
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能 协同 作用 的 。 最 后 ,所 有 miRNA 协 同 作 用 对 形成 miRNA-miRNA 功 能 协同 调控 网 络 ( miRNA- 
miRNA functional synergistic network, MFSN )。 其 中 ,节点 表示 miRNA , 边 表示 它们 之 间 的 协同 作用 。 

miRNA-miRNA 功 能 协同 调控 网 络 的 结构 特征 分 析 : 理论 上 讲 , 在 所 考虑 的 miRNA 对 
( 676*675/2 ) 和 3894 生 物 过 程 类 之 间 共 有 888 416 100 个 可 能 的 衡量 功能 富 集 的 P 值 。 当 给 定 
功能 富 集 的 显著 性 水 平 P<0.05 时 ,我 们 检测 到 miRNA 对 和 候选 功能 模块 之 间 的 472 573 调 控 关 
系 。 经 过 和 蛋白质 互 作 网 络 中 两 个 拓扑 限制 和 特征 路 径 的 显著 性 水 平 设 为 P<0.001,13687 功 能 
模块 被 473 个 miRNA 协 同调 控 , 其 中 一 对 miRNA 可 能 调控 多 个 不 同 的 功能 模块 。 这 些 miRNA 间 
有 2937 个 非 宛 余 的 协同 模式 。 从 图 10-14 我 们 发 现 几 乎 所 有 的 miRNA 都 连接 在 一 起 ,并 且 有 
一 个 小 的 半径 (2.8691 )。 我 们 用 复制 模型 产生 随机 网 络 , 这 些 网 络 的 平均 半径 和 真实 的 类 似 
( 2.8722 + 0.1332 ), 也 是 小 世界 网 络 。 但 是 MFSN 网 络 还 展现 出 紧密 的 邻居 关系 ,平均 聚 类 系数 达 
50.2747 , 比 随机 网 络 的 显著 高 ( 0.0684 + 0.0151 )。 这 是 因为 miRNA 的 直接 邻居 , 即 功能 协同 对 
象 ,也 倾 问 有 协同 作用 。 小 世界 网 络 的 这 种 紧密 的 邻居 特征 是 特别 有 意义 的 ,因为 它 能 用 来 预 
测 新 的 协同 作用 ,就 像 以 前 预测 和 蛋白质 互 作 中 那样 。 另 外 ,在 MEFSN 中 ,只 有 一 些 miRNA 有 相对 
多 的 协同 作用 ,大 部 分 miRNA 只 有 很 少 的 协同 邻居 。 检 验 这 个 MFSN 网 络 的 度 分 布 发 现 , 该 分 布 
服从 斜率 为 0.7902( 拟 合 优 度 R2=~0.9264 ) 的 窘 分 布 ,表明 MFSN 是 一 个 无 尺度 ( scale-free ) 网 络 。 

我 们 分 析 了 MFSN 网 络 的 模块 和 社区 特性 。 这 里 ,我们 定义 一 个 miRNA 功 能 协同 模块 为 
一 个 最 大 完全 子 图 ( clique )。MFSN 中 所 有 的 模块 (或 社区 ) 都 有 独一无二 的 miRNA 组 成 ,但 
是 也 允许 同一 个 miRNA 或 者 同一 条 边 出 现在 多 个 模块 中 。 我 们 统计 了 每 种 k 值 对 应 的 模块 












-0.7902 
y=x 


E 


= 0.12 R^-0.9264 


‘raction of miR 


10 20 30 40 50 60 70 80 


Number of co-regulating partners 





图 10-14 MFSNAS AF EDR 
A. 表 示 MFSN, 其 中 每 个 节点 代表 一 个 miRNA, 边 代表 协同 作用 ; B. 表 示 度 分 布 


数 日 和 模块 中 miRNA 占 所 有 miRNA 的 累积 分 布 。 结 果 发 现 , 随 着 k 值 的 增加 ,模块 的 数目 急 
剧 下 降 。 总 共有 77.51% 的 miRNA 至 少 包含 在 一 个 模块 中 。 l 

我 们 解释 这 种 现象 可 能 是 下 面 原因 导致 的 , 即 miRNA 完 成 某 种 特定 调控 时 ,是 以 小 的 团 
的 方式 完成 的 ,而 不 是 单个 发 挥 作用 或 者 以 大 模块 的 方式 。 因 为 同一 个 家 族 的 miRNA 倾 向 有 
相似 的 功能 或 者 参与 同 种 疾病 ,我 们 进一步 调查 是 否 同一 家 族 的 miRNA 倾 向 出 现在 同一 模块 
或 者 社区 中 。 一 共有 70 个 miRNA 家 族 至 少 包 含 两 个 miRNA ,其 中 60% 的 家 族 完 全 被 包含 在 至 
少 一 个 模块 中 ,在 社区 中 这 个 比例 高 达 65.71%。 因 此 ,同一 家 族 的 miRNA 确 实 倾向 功能 协同 。 

总 之 , miRNA 功 能 协同 调控 作用 相互 交织 ,形成 一 个 复杂 的 miRNA 功 能 协同 调控 网 络 。 该 网 
络 具 有 小 世界 和 无 尺度 的 特性 。 因 此 ,类 似 于 许多 大 的 网 络 , MFSN 的 无 尺度 特征 暗示 着 该 网 络 
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并 不 是 一 个 随机 网 络 ,而 是 被 一 个 核心 的 组 织 原则 集合 刻画 ,这 些 原则 能 够 使 其 区 别 于 随机 连 
接 的 网 络 。 已 有 人 研究 证 明 一 个 干扰 在 小 世界 网 络 中 散播 所 花费 的 时 间接 近 于 理论 上 任何 有 相 
同 点 和 边 的 网 络 中 所 用 时 间 的 最 小 值 。 因 此 ,小 世界 网 络 允 许 miRNA 协 同 作用 能 快速 响应 干扰 。 

疾病 miRNA 的 拓扑 特征 : 目前 越 来 越 多 的 研究 给 出 了 特定 疾病 相关 的 miRNA ,有 些 科 研 
院 所 构建 了 专门 的 数据 库 收集 这 些 关 联 信 息 , 例 如 哈尔滨 工业 大 学 开发 的 miR2disease 和 清 
华 大 学 开发 的 HMDD 数 据 库 。 我 们 基于 miR2disease 数 据 库 提供 的 miRNA 疾 病 信 息 做 了 初步 
探讨 。 基 于 疾病 中 miRNA 差 异 表达 的 检测 方法 ,我 们 获得 两 类 不 同 可 信 度 的 疾病 数据 。 一 
类 是 我 们 从 数据 库 中 所 能 获得 的 全 部 疾病 miRNA 信 息 ; 另外 一 类 是 前 面 数据 的 子 集 合 , 由 那 
些 低 通 量 实验 证 实 的 疾病 miRNA 组 成 ,比如 “Northern blot” 和 “qRT-PCR”"。 结 果 发 现 第 一 
类 包括 236 个 miRNA ,它们 参与 了 108 种 疾病 ,第 二 类 包括 164 个 miRNA ,涉及 94 种 疾病 。 

我 们 分 析 疾 病 miRNA 在 miRNA-miRNA 协 同调 控 网 络 中 的 拓扑 性 质 , 如 图 10-15。 我 
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图 10-15 疾病 miRNA 的 拓扑 特征 
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们 发 现 同一 疾病 的 miRNA 在 协同 调控 网 络 中 距离 和 随机 比较 显著 的 近 , 上 暗示 着 同一 疾病 的 
miRNA 调 控 相 同 或 者 相似 的 功能 ,存在 聚集 现象 。 比 如 ,卵巢 癌 的 上 皮 细 胞 中 用 低 通 量 实 验 
已 经 识别 14 疾 病 相 关 miRNA ,我 们 发 现 其 中 有 8 个 miRNA 至 少 由 一 条 功能 协同 调控 ,它们 的 
特征 路 径 为 2.1429。 另 外 ,结果 发 现 miRNA 协 同调 控 的 数目 和 其 调控 功能 模块 的 类 型 是 显 
著 正 相关 的 , 且 疾 病 miRNA 有 更 多 的 协同 作用 。 因 此 ,疾病 miRNA 有 更 高 的 功能 复杂 性 。 疾 
病 miRNA 还 倾向 定位 在 大 的 miRNA-miRNA 协 同调 控 模 块 中 ,特别 是 这 些 模 块 的 交友 处 , 表 
明 疾 病 miRNA 倾 问 是 协同 调控 网 络 的 全 局 中 心 , 对 不 同 或 相似 生物 过 程 起 到 衔接 作用 。 归 
纳 出 疾病 miRNA 在 协同 作用 网 络 中 的 拓扑 特征 可 以 开拓 我 们 对 miRNA 致 病 机 制 的 理解 ,还 
可 以 用 来 预测 新 的 疾病 miRNA。 

总 之 ,miRNA-miRNA 功 能 协同 调控 网 络 不 仅 可 以 用 来 深入 理解 miRNA 的 转录 后 调控 模 
式 ,还 为 探索 疾病 miRNA 的 性 质 提 供 了 一 个 新 的 视角 。 











三 .miRNA 调 控 不 同 分 子 网 络 >>> 


生命 是 存储 并 加 工 信 息 的 复杂 过 程 ,以 往 孤 立地 研究 单个 基因 及 其 表达 的 变化 往往 不 
能 够 确切 地 反映 生命 现象 的 本 质 规律 。 这 也 是 分 子 生 物 学 家 在 从 基因 组 序列 到 和 蛋白 质 结构 
层面 获得 了 海量 的 数据 之 后 , 面 对 信 息 整合 感到 迷茫 的 真正 原因 。2003 年 , Bray 提 出 了 关于 
生物 分 子 网 络 整合 的 建议 。 聪 明 的 科学 家 从 社会 科学 那里 借鉴 了 用 来 处 理 数据 的 “网 络 ” 
来 系统 地 探究 生命 现象 。 简 而 言 之 ,活体 细胞 就 是 一 个 网 络 ,细胞 中 的 一 切 分 子 都 存在 着 普 
这 的 生物 联系 ,细胞 与 细胞 之 间 也 存在 着 信息 的 传递 ,因而 构成 了 复杂 的 生物 分 子 网 络 系 
统 。 依 据 中 心 法 则 ,我 们 知道 RNA 只 是 负责 将 遗传 信息 从 基因 组 传递 给 蛋白质。 而 最 近 发 
现 的 非 编码 miRNA 却 挑战 了 这 一 法 则 , 它 被 认为 是 信息 流 的 调控 者 之 一 ,并 且 有 越 来 越 多 的 
证 据 显 示 miRNA 的 调节 作用 涉及 生命 过 程 的 方方面面 : 

我 们 已 经 知道 通过 部 预测 算法 得 到 的 miRNA 的 靶 基 因 种 类 相当 广泛 ,包括 信和 号 蛋白 、 代 
谢 酶 .骨架 蛋白 和 转录 因子 等 。miRNA 靶 基因 的 多 样 性 和 丰富 性 暗示 着 miRNA 在 和 它 的 靶 
基因 形成 复杂 网 络 的 同时 ,必然 和 其 他 的 分 子 网 络 ( 如 转录 调控 网 络 ) 存 在 复杂 的 交互 作用 。 
因此 , miRNA 通 过 调控 分 子 网 络 行使 功能 的 观点 是 合理 的 ,我 们 有 必要 从 系统 水 平 上 去 解析 
miRNA 是 如 何 参与 细胞 调控 过 程 的 。 

基因 调控 网 络 .信号 网 络 .蛋白 互 作 网 络 和 代谢 网 络 是 目前 研究 比较 广泛 的 四 种 分 子 网 
络 。 其 中 ,基因 调控 网 络 描述 转录 因子 和 编码 和 蛋白 基因 间 的 调控 关系 ,其 包含 细胞 中 全 部 生 
物 过 程 的 基因 调控 信息 。 而 和 绰 白 互 作 网 络 则 包含 了 入 白 信 息 及 其 物理 互 作 的 信息 。 重 日 互 
作 时 括 了 从 基本 的 细胞 机 制 ( 如 DNA 合 成 重 晶 复合 物 ) 到 细胞 信号 涉及 的 重 白 复合 物 等 信 
县 。 人 徐 而 言 之 ,基因 组 范围 的 蛋白 互 作 网 络 包含 了 细胞 生命 过 程 涉及 的 全 部 蛋白 互 作 信息 。 
因此 ,我们 将 基因 调控 网 络 和 和 蛋白 互 作 网 络 划 分 为 “一 般 网 络 ”。 

miRNA 通 过 靶 疝 基因 的 3”UTR 对 靶 基 因 进 行 功 能 调控 。 因 此 ,将 miRNA 的 靶 基 因 映 射 
到 和 集 日 互 作 网 络 ( 中间 需要 先 将 靶 基 因 同 和 集 白 对 应 ) 或 是 转录 调控 网 络 , 就 可 以 将 miRNA 太 
其 靶 基 因 形 成 的 网 络 同 二 者 联系 起 来 。 对 于 和 蛋白 互 作 网 络 ,截至 目前 ,酵母 .大肠 埃 和 布 菌 及 
其 他 细 著 .线虫 . 果 蝇 和 人 类 均 已 进行 了 大 规模 的 蛋白 互 作 检测 ,使 得 和 蛋白 互 作 数据 相对 完 
善 ,所 以 对 网 络 中 miRNA 的 转录 后 调控 机 制 的 探讨 也 最 为 细致 。 研 究 显 示 即 使 不 限定 蛋白 
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”及 功能 复杂 度 是 正 相 关 的 。 网 络 中 的 HUB 和 蛋白 更 倾向 被 miRNA 调 控 , 互 作 的 蛋白 倾向 具有 
类 似 的 转录 后 调控 模式 。 单 个 miRNA 的 靶 基 因 模 块 化 不 是 很 明显 ,但 加 入 靶 基 因 的 互 作 邻 
居 后 模块 化 显 铸 。 而 对 于 miRNA 秘 ,同样 可 以 找到 其 显著 调控 的 功能 模块 。 

对 于 转录 调控 网 络 , 其 和 和 蛋白 互 作 网 络 明显 不 同 的 是 ,全 基因 组 范围 内 的 基因 调控 数据 
还 不 完善 ,依靠 低 通 量 实验 获得 数据 比较 少 。 因 此 只 能 在 有 限 的 数据 中 分 析 miRNA 的 调控 
规律 ,然后 再 分 析 预 测 得 到 的 转录 因子 在 启动 子 结合 位 点 的 数据 ,寻找 miRNA 的 调控 规律 。 
结果 显示 两 者 有 较 高 的 一 致 性 。 即 基因 拥有 的 转录 因子 结合 位 点 越 多 ,这 个 基因 的 转录 后 
调控 机 制 越 复杂 ,其 越 倾向 被 较 多 的 miRNA 靶 问 。 反 过 来 ,基因 上 miRNA 的 靶 点 数目 越 多 ， 
其 倾向 于 拥有 越 多 的 转录 因子 结合 位 点 。 也 就 是 说 miRNA 的 调控 数目 和 转录 因子 结合 位 点 
的 数目 是 显著 正 相 关 的 。 换 句 话 说 ,人 类 基因 组 中 ,转录 后 水 平 上 miRNA 的 调控 复杂 度 和 转 
录 水 平 上 转录 因子 对 基因 的 调控 复杂 度 是 正 相 关 的 , 即 转录 调控 越 复 杂 的 基因 ,其 转录 越 需 
要 频繁 开启 , 越 有 可 能 具有 时 空 特 异性 表达 ,因此 其 转录 越 需 要 频繁 关闭 , 即 越 复 杂 的 转录 
后 调控 。 男 外 , 当 我 们 对 同时 具有 转录 调控 及 转录 后 调控 复杂 性 的 基因 进行 功能 富 集 (数据 
来 自 GO 数 据 库 ) 时 ,结果 显著 宣 集 在 和 发 育 相 关 的 生物 过 程 。 由 于 人 类 和 咕 具 类 生物 中 关 
于 基因 的 正 向 或 负 向 转录 调控 关系 缺乏 ,我们 现在 还 不 能 分 析 转 录 调 控 网 络 的 局 部 模块 化 。 

代谢 网 络 和 信号 网 络 ,通常 被 称 为 “特异 细胞 网 络 ” ,其 描述 某 些 特定 的 细胞 活动 中 信息 
流 的 行走 方式 。 细 胞 代谢 网 络 包 含 所 有 代谢 反应 和 代谢 流 , 而 信号 网 络 则 包含 信号 流 和 信 
号 传导 过 程 涉及 的 生化 反应 。 通 常 这 两 种 信息 间 的 交互 用 线性 通路 表示 ,比如 代谢 通路 和 
信号 通路 。 代 谢 通路 是 紧密 交织 的 ,因此 代谢 流 可 以 通过 多 条 通路 进行 传递 。 且 有 些 代谢 
产物 是 被 多 条 通路 共享 的 ,因此 可 以 通过 一 条 或 者 多 条 通路 得 到 某 种 代谢 产物 。 信 和 号 网 络 
涉及 细胞 内 和 细胞 间 的 交流 以 及 信号 和 蛋白 对 信息 的 处 理 方式 。 其 作为 高 级 交流 系统 能 够 完 
成 诸如 生长 ,细胞 存活 和 发 育 等 功能 。 

2006 年 , Cui 等 把 miRNA 靶 数据 进行 信号 网 络 映射 ,揭示 了 miRNA 调 控 人 类 信和 号 网 络 的 
一 般 规律 。 通 过 信号 蛋白 类 别 的 划分 ,依据 各 类 别 中 被 miRNA 靶 向 的 信号 蛋白 的 比例 ,分 析 
miRNA 靶 回 的 倾 回 性 。 结 果 显 示 miRNA 倾 问 于 靶 回 信号 流下 游 的 核 和 蛋白 成 分 (大 部 分 为 转 
录 因 子 )。 而 通过 功能 将 信和 号 蛋白 进行 分 类 ,继而 研究 miRNA 靶 向 的 倾向 性 时 ,Cui 等 主要 探 
讨 了 连接 重 白 ,无 酶 活性 ,通过 和 上 游 及 下 游 信号 重 白 紧密 互 作 来 实现 信号 传递 .结果 显示 ， 
miRNA 倾 问 于 靶 回 高 连接 组 (下 游 多 于 4 个 信号 和 蛋白 ), 并 通过 调控 连接 蛋白 下 游 成 分 的 浓度 
而 精确 响应 各 种 刺激 ,这 和 miRNA 的 高 时 空 表 达 特 异性 也 是 一 致 的 。 

网 络 模 体 ,作为 信号 网 络 中 一 种 普 志 存在 具有 简单 结构 的 网 络 单元 ,不 同 的 网 络 模 体 代 
表 不 同 的 信号 传递 模式 。 利 用 Mfinder 程 序 提取 网 络 中 三 到 四 个 节点 的 模 体 ,依据 模 体 中 被 
miRNA 披 向 的 和 蛋白 的 比例 研究 miRNA 丢 癌 的 倾向 性 。 结 果 显 示 , mi RN A (t p] RE [85] 1E [8] Hal 4 
的 模 体 。 正 向 调控 的 模 体 中 ,任何 成 分 的 噪声 或 者 波动 都 容易 被 放大 ,从 而 使 生物 系统 的 状 
态 发 生 转 换 。 而 miRNA 的 负 回 调控 能 够 增强 其 对 这 种 放大 作用 的 过 滤 或 者 缓冲 ,从 而 精确 
调 定 和 维持 细胞 稳 态 。 网 络 模 体 通过 共享 的 信号 蛋白 相互 连接 组 成 的 更 大 网 络 结构 , 称 为 
网 络 主题 (theme )。miRNA 的 功能 预测 可 以 通过 寻找 与 其 紧密 关联 的 网 络 主题 实现 。 而 大 
部 分 网 络 主题 和 五 个 细胞 机 器 (包括 转录 机 器 、 翻 译 机 需 、 分 泌 机 器 、 活 力 机 器 和 电荷 机 器 ) 
中 的 一 个 或 者 更 多 相关 。 但 这 些 机 器 的 共享 蛋白 , 却 不 倾向 于 被 miRNA 调 控 。 由 于 其 功能 
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对 于 代谢 网 络 ,许多 代谢 产物 可 以 被 不 同 的 代谢 通路 共享 ,使 得 各 通路 间 形 成 复杂 的 交 
互 。 其 调控 的 复杂 度 涉 及 转录 、 转 录 后 和 翻译 水 平 三 个 层面 。Tibiche 等 系统 分 析 了 人 类 代 
谢 网 络 中 miRNA 的 调控 模式 。 用 KEGG 数 据 库 中 获得 的 人 类 代谢 通路 数据 以 反应 为 中 心 的 
模式 来 刻画 代谢 网 络 , 即 有 向 图 的 模式 。 然 后 将 TargetScan 预 测 得 到 的 miRNA 的 靶 数 据 进行 
代谢 网 络 映射 。 如 果 反 应 只 包含 一 个 酶 且 被 miRNA 靶 向 , 则 认为 该 反应 被 miRNA 调 控 ; 若 包 
含 多 个 酶 则 需要 跟随 机 (随机 扰动 miRNA 和 酶 之 间 的 靶 向 关系 ) 进行 比较 得 出 miRNA 对 该 
反应 的 调控 是 否 具有 显著 性 来 确定 该 反应 是 否 被 miRNA 调 控 。 同 信号 网 络 不 同 的 是 ,网 络 
节点 的 分 类 测度 。 对 于 代谢 网 络 ,我 们 将 节点 分 为 上 游 节 点 .切割 点 (cut point, CP ), hub 15 
点 (定义 为 网 络 中 前 5% 出 度 和 入 度 和 大 的 节点 )、 中 间 节 点 (intermediate nodes, ITN ) 和 下 游 
节点 (图 10-16 )。 通 过 计算 各 类 型 节点 中 被 miRNA 靶 向 的 百分比 (对 于 包含 多 个 酶 的 反应 还 
需要 计算 其 百分比 同 随 机 比较 是 否 具 有 显著 性 ) 来 确定 其 是 否 被 miRNA 靶 向 。 结 果 显 示 ， 
miRNA 显 著 地 不 调控 ITN; 却 显著 富 集 在 hub 和 CP 两 类 型 节点 上 。 同 信号 网 络 类 似 , 代 谢 网 
谢 流 , 其 对 应 某 种 特定 物质 的 代谢 过 程 。 代 谢 流 可 以 分 为 两 
种 结构 方式 : 线性 模式 和 支 化 模式 ,后 者 又 可 以 继续 分 为 两 种 子 模式 : 分 又 型 和 汇集 型 (图 
10-17 )。 这 三 种 模式 的 总 数 可 以 通过 枚 举 网 络 中 连接 的 两 个 或 者 三 个 反应 的 组 合 得 到 。 然 
后 ,根据 该 模型 是 否 被 miRNA 和 靶 癌 而 对 其 进行 分 类 ,然后 分 别 计算 三 种 模型 跟随 机 比较 是 显 
著 的 出 现 还 是 显著 的 缺失 。 结 果 表 明 ,线性 模型 代谢 流 都 被 miRNA 靶 向 , 同 随机 比 其 是 显著 
出 现 的 。 这 表示 代谢 网 络 中 某 些 局 部 反应 区 域 被 miRNA 显 著 调控 。 另 外 ,无 论 是 汇集 型 还 
是 分 又 型 ,不 包含 miRNA 靶 点 的 模式 是 在 网 络 中 显著 出 现 的 , 至少 包 含 2 个 靶 点 的 模式 在 网 
络 中 是 显著 缺失 的 。 对 于 miRNA 调 控 倾 向 性 的 研究 , 则 显示 , miRNA 广 泛 调控 基本 的 代谢 通 
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分 又 型 
图 10-17 代谢 网 络 中 代谢 流 的 分 类 


路 ,如 氨基 酸 合 成 /降解 和 某 些 脂 类 代谢 通路 ,暗示 着 miRNA 在 细胞 代谢 中 作用 的 重要 性 。 

把 没有 入 度 的 点 称 为 上 游 节点 , 即 该 反应 的 底 物 不 是 其 他 任何 代谢 反应 的 产物 ; 同样 
的 ,把 没有 出 度 的 点 称 为 下 游 节点 , 即 反 应 的 产物 不 是 其 他 任何 反应 的 底 物 。 删 除 后 能 增加 
网 络 组 分 数 的 点 称 为 切割 点 ,而 拥有 较 高 出 度 和 入 度 加 和 的 点 称 为 hub 节 点 。 网 络 中 剩余 的 
所 有 节点 称 为 中 间 节 点 。 

线性 模式 即 一 个 反应 的 产物 是 且 只 是 另 一 个 反应 的 底 物 ,文中 仅 考 虑 两 个 或 者 三 个 反 
应 的 线性 模式 ; 对 于 支 化 模式 ,进一步 分 为 汇聚 型 , 即 两 个 反应 的 产物 是 男 外 一 个 反应 的 底 
物 ; 分 又 型 则 表示 一 个 反应 的 产物 是 另外 两 个 反应 的 底 物 。 

[ 例 10-4 ] 基 于 miRNA- 靶 点 失调 网 络 的 拓扑 特征 优化 前 列 腺 癌 风 险 miRNA 

这 里 ,我 们 提出 一 种 猜想 ,我 们 认为 除了 表达 异常 的 miRNA 和 疾病 相关 ,另外 一 类 
miRNA 也 应 该 值得 注意 , 即 对 靶 基 因 调 控 发 生 异 常 的 miRNA。miRNA 是 通过 对 靶 基 因 进 行 
调控 而 完成 生物 学 功能 的 ,如 果 miRNA 对 靶 基 因 进 行 异常 调控 ,很 有 可 能 会 导致 癌症 的 发 
^E. 因此 ,这 里 我 们 借助 miRNA 在 miRNA- 靶 基因 失调 网 络 中 的 拓扑 特点 来 优化 前 列 腺 癌 风 
险 miRNA。 

1. 数据 准备 ”构建 miRNA-mRNA 失 调 网 络 需 要 三 种 类 型 数据 : miRNA 一 gene 调 控 
关系 数据 .前 列 腺 癌 中 miRNA 和 mRNA 表达 谱 数 据 。 其 中 , miRNA 一 gene 调 控 关 系数 据 是 
TargetScan ( 5.1 版 本 ) miRanda( miRBase 数 据 库 中 下 载 )、_PicTar 和 DIANA-microT 预 测 结果 的 
并 集 。 表 达 谱 数据 是 Ambs 等 人 检测 的 ,从 CEO 数 据 库 下 载 获 得 ,其 中 miRNA 表 达 谱 对 应 的 
GEO 编 号 为 GSE8126,mRNA 表 达 谱 数据 对 应 的 GEO 编 号 为 GSE6956。 这 里 ,我们 只 关注 同时 
检测 mRNA 和 miRNA 表 达 的 样本 , 共 75 个 ,其 中 60 个 是 原 发 性 的 前 列 腺 癌 样 本 ,15 个 是 作为 
对 照 的 前 列 腺 瘤 劳 组 织 ,此 处 认为 是 正常 的 样本 。 我 们 对 mRNA 的 表达 谱 利 用 robust multi- 
array average( RMA ) 算 法 进行 标准 化 处 理 , 而 对 miRNA 则 直接 从 网 上 下 载 已 经 进行 过 标 化 处 
理 的 数据 。 

2. 构建 miRNA-mRNA 失 调 网 络 ”我 们 逐次 判断 每 对 有 表达 的 miRNA 和 它 的 靶 基 因 之 
间 的 调控 关系 在 前 列 肋 瘤 样本 和 正常 比较 是 否 发 生 显 者 失调 (图 10-18 )。 首 先 , miRNA 和 
mRNA 的 表达 谱 被 分 成 两 部 分 ,分 别 是 肿瘤 样本 的 表达 谱 和 正常 样本 的 表达 谱 。 其 次 ,对 每 
XJ miRNA LI ci j, 分 别 计算 它们 在 正常 样本 和 肿瘤 样本 中 的 皮尔 森 相关 系数 ,并 观察 两 者 
之 间 的 差异 ,公式 如 下 : 
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其 中 M 和 7 分 别 表示 的 是 miRNA i 和 半点 j 的 表达 值 。C 是 癌症 样本 ,而 4 是 正常 的 前 列 腺 
样本 。nc 和 ns 分 别 表示 癌症 和 正常 样本 的 个 数 。 MT. RUM, 是 miRNA ;和 丢 点 /在 肿瘤 
和 正常 样本 中 的 平均 表达 值 ,而 Sw Sy RIS, Sp, 分 别 表示 两 种 类 型 样本 中 miRNA 和 靶 基 因 
表达 值 的 标准 差 的 乘积 。 这 个 Dys 测 度 可 以 用 来 估计 miRNA 和 和 靶 基因 在 两 种 类 型 样本 (肿瘤 
和 正常 ) 中 相关 性 的 失调 程度 。 
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图 10-18 概览 miRNA 一 靶 点 失调 关系 的 识别 过 程 


为 了 确定 是 否 两 类 样本 中 miRNA 和 靶 基 因 之 间 的 失调 是 显著 的 ,我 们 随机 扰乱 所 有 的 
样本 标签 10 000 次 并 重新 计算 值 。 这 样 ,我 们 对 每 对 miRNA 和 丢 基 因 的 关系 可 以 计算 一 个 
经 验 概率 。 人 然后 ,我们 用 对 所 有 的 调控 关系 的 概率 值 进行 多 重 校正 检验 , 当 FDR 友 0.01 时 这 
对 关系 才 被 认为 是 显著 失调 的 。 

我 们 识别 了 前 列 腺 癌 背 景 下 的 3758 条 显著 的 miRNA- 靶 基因 失调 关系 ,涉及 274 个 
miRNA 和 2511 个 基因 。 这 些 失 调 关 系 并 不 是 孤立 存在 的 ,而 是 彼此 交错 形成 了 一 个 复兴 的 
miRNA-mRNA 失 调 网 络 , 这 里 称 之 为 miRNA- 骤 基因 失调 网 络 ( miRNA target-dysregulated 
network , 向 称 MTDN )。 所 以 ,我 们 可 以 融合 上 面 已 知 疾病 miRNA 的 拓扑 性 质 来 优化 候选 的 
癌症 标记 。 

3. 优化 前 列 腺 癌 风 险 miRNA ”基于 疾病 miRNA 在 协同 网 络 中 拓扑 性 质 的 分 析 , 我 们 发 
现 了 疾病 miRNA 是 以 模块 的 方式 行使 功能 的 ,并 且 疾 病 miRNA 倾 向 于 位 于 模块 的 交 车 处 ， 
能 够 更 加 便利 信息 的 交流 。 我 们 发 现 构建 的 前 列 腺 况 背 景 下 miRNA-mRNA 失 调 网 络 也 是 
无 尺度 的 。 我 们 搜索 miR2disease 等 疾病 miRNA 数 据 库 和 阅读 文献 获得 了 37 个 已 证 实 的 前 
列 腺 癌 miRNA ,将 其 作为 真 阳性 miRNA 集 合 ; 另外 ,我 们 将 在 正 党 前列腺 组 织 中 表达 最 低 的 
50 个 miRNA 作 为 真 阴性 miRNA 人 集合。 结果 发 现 这 两 类 miRNA 的 折 扑 性 质 的 确 存 在 显著 的 差 
异 : 疾病 miRNA 有 较 多 的 失调 靶 基 因 ,其 中 很 多 靶 基 因 都 是 和 其 他 前 列 腺 癌 miRNA 共 同 失 调 
的 ; 还 发 现 它 们 有 较 多 的 协同 调控 miRNA ,其 中 前 列 腺 癌 miRNA 占 的 比例 也 显著 高 于 其 他 
miRNA。 这 暗示 着 在 前 列 腺 癌 中 miRNA 有 聚集 现象 。 进 一 步 地 ,我们 利用 这 些 拓扑 性 质 及 
表达 的 改变 为 特征 构建 了 SVM 分 类 需 , 用 五 倍 交 叉 证 实 进行 评价 ,结果 表明 该 分 类 融 准确 性 
达到 了 0.8872 ,要 明显 优 于 单单 利用 miRNA 表 达 来 预测 候选 miRNA( 图 10-19 )。 然 后 我 们 利 
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用 训练 好 的 分 类 器 来 预测 新 的 前 列 腺 癌 miRNA ,发 现 很 多 已 知 的 前 列 腺 癌 miRNA 都 排 在 前 
面 (图 10-19 )。 通 过 对 得 分 比较 高 的 未 知 前 列 腺 癌 miRNA 进 行 功能 注释 ,发 现 这 些 miRNA 的 
功能 和 前 列 腺 癌 的 发 生 有 密切 关系 。 例 如 , hsa-miR-203 和 失调 的 靶 基因 富 集 了 Hedgehog 信 和 号 
通路 细胞 分 化 和 细胞 增殖 等 。 








B m Ranked by posterior probabilities 0.9 






= 

zZ 

e 
E 9 Ranked by fold changes - 
l T 09 anked by fold changes d» < 
0.9 rads = 0 8 ec 
0.8 MM es 0.7 E 
E ol ， S 0.7 06 c 
Z 0Q6t| gee .三 0.6 0.5 - 
z 0.5 as 0.4 5 
4 04 A ec 0.4 03 € 
ue EN ~ Topologie al+Expression Features E (s | 02 = 
‘ — d E i a 
opi - Expression Feature = 0.1 01 = 
ok E Ô j = 

0 0.1 0.2 0.3 0.40.5 0.6 0.7 0.8 0.9 1 三 Top5 ToplOTop15 Top20 Top40 Top60 Top84 
e 


| -Specificity 


Top ranked miRNAs 
图 10-19 基于 拓扑 特性 构建 的 疾病 miRNA 分 类 器 评价 


四 、miRNA 调 控 的 网 络 模 体 >>. 


miRNA 是 内 源 性 的 非 编 码 RNA ,在 转录 后 水 平 上 对 其 靶 基 因 的 表达 起 负 向 调节 作用 , 进 

参与 多 种 生物 学 过 程 ,如 发 育 、 分 化 ,生长 .代谢 、 凋 亡 \ 信 号 通路 甚至 癌症 的 发 生 和 发 展 。 
M ind 度 共 表达 ,表明 转录 因子 介 导 的 转录 调控 和 miRNA 介 导 
的 转录 后 调控 经 党 是 高 度 协同 的 。 为 了 更 好 地 探究 转录 因子 和 miRNA 的 协同 效应 ,刻画 基 
因 组 规模 的 全 局 调控 网 络 是 非常 重要 的 。 以 网 络 为 媒介 可 以 有 效 地 分 析 转 录 因 子 和 miRNA 
是 以 怎样 的 联合 调控 方式 调节 基因 表达 ,从 系统 水 平 上 揭示 基因 表达 的 调控 机 制 ,而 不 是 仅 
仅 从 单个 基因 的 水 平 。 通 过 对 调控 网 络 的 分 析 , 很 多 人 研究 发 现在 网 络 中 存在 着 一 些 显著 富 
集 的 调控 结构 ,进而 网 络 模 体 的 概念 应 运 而 生 。 网 络 模 体 ( network motif ) 被 定义 为 网 络 中 
较 小 的 调控 回路 或 者 结构 模式 , 它 在 真实 网 络 中 出 现 的 次 数 统计 学 上 显著 高 于 在 随机 网 络 
中 出 现 的 次 数 。 转 录 调 控 网 络 的 网 络 模 体 首 先 在 细菌 和 酵母 中 被 发 现 ,提供 了 调控 网 络 中 
更 局 部 的 信息 。 目 前 ,一 些 miRNA 调 控 的 网 络 模 体 已 经 被 实验 数据 证 实 , 例 如 ,在 果 蝇 的 眼 
青 细 胞 中 ,转录 因子 Yan 抑 制 miR-7 的 转录 , 反 过 来 miR-7 也 可 以 在 转录 后 水 平抑 制 转录 因子 
Yan 的 翻译 ,从 而 Yan 与 miR-7 形 成 了 表达 水 平 的 互相 排斥 状态 ,在 EGFR 信 号 触发 的 Yan 降 解 
状态 下 ,使 得 miR-7 与 Yan 的 表达 模式 发 生 了 一 个 稳定 的 差异 ,进而 启动 了 果 晶 眼 细 胞 感光 
需 的 分 化 。 在 人 类 粒 细 胞 分 化 以 及 线虫 外 阴 细 胞 中 也 发 现 了 类 似 的 环 路 。 即 在 不 同 物种 的 
基因 调控 网 络 里 面 找到 了 相同 的 模 体 类 型 ,说 明 网 络 模 体 是 网 络 趋同 进化 的 结果 ,并 且 在 细 
胞 内 执行 重要 的 生物 学 功能 。 

对 于 miRNA 参 与 的 复杂 网 络 而 言 ,包括 miRNA 在 内 的 三 个 节点 或 四 个 节点 所 对 应 的 网 
络 模 体 的 研究 较为 广泛 。 比 如 , Yu 等 人 在 人 类 的 调控 网 络 中 ,探究 所 有 可 能 的 至 少 包 括 一 
个 miRNA 和 一 个 转录 因子 的 三 个 节点 的 子 图 ,发 现 了 17 个 miRNA 调 控 的 网 络 模 体 。 寻 找 网 
络 模 体 的 方法 是 将 网 络 中 的 某 一 种 感 兴趣 的 调控 模式 与 随机 网 络 相 比较 ,如 果 这 个 调控 模 
式 显 着 的 定 集 到 真实 的 网 络 ,说 明 这 种 调控 模式 在 真实 的 网 络 中 起 着 重要 的 作用 , 即 为 网 络 
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模 体 。 具 体 说 来 ,针对 一 个 复杂 有 问 网 络 而 言 ,对 整个 网 络 进行 遍历 ,寻找 含有 nn 个 节点 的 子 
R A BEA OEE 3:32 E fen = 3,4 ), 并 记录 每 个 子 图 在 网 络 中 出 现 的 次 数 ,然后 将 实际 的 网 
络 随机 化 ,采用 在 实际 网 络 中 寻找 子 图 的 方法 遍历 该 随机 网 络 , 并 记录 遍历 随机 网 络 得 到 的 
1 个 下 点 了 于 图 的 出 现 频数 ,如 果实 际 网 络 中 出 现 的 次 数 显著 比 它 在 随机 网 络 中 出 现 的 次 数 
大 ,那么 这 样 的 2 点 的 子 图 模式 就 是 一 种 网 络 模 体 。 那 么 对 于 随机 化 的 方法 ,为 了 提高 随 
机 网 络 与 实际 网 络 的 可 比 性 ,往往 在 随机 化 实际 网 络 的 时 候 保持 实际 网 络 中 节点 的 出 度 和 
入 度 不 变 。 

目前 ,很 多 研究 中 都 发 现 了 几 种 广泛 存在 的 网 络 模 体 。 

1. 前 馈 环 ( Feed-forward Loop) 即 上 游 转录 因子 调控 一 个 靶 基 因 表 达 的 同时 ,还 作用 
于 下 游 的 一 个 miRNA ,然后 与 这 个 miRNA 协 同调 控 下 游 靶 基因 的 表达 。 也 就 是 上 游 的 转录 
因子 调控 下 游 的 靶 基 因 是 通过 两 个 途径 同时 控制 ,一 个 途径 是 转录 因子 直接 作用 于 靶 基 
因 , 为 外 一 个 途径 是 通过 调 市 一 个 miRNA ,间接 的 作用 于 靶 基因 。 按 照 直接 途径 和 间接 途径 
对 名 基 因 效 应 的 一 致 性 与 否 ,把 前 馈 环 被 分 为 两 种 , 即 工 型 miRNA 前 馈 环 ( Incoherent feed- 
forward ), 与 [型 亲 馈 环 ( coherent feed-forward ) (图 10-20 )。 

在 了 型 miRNA 前 馈 环 中 ,上 游 转录 因子 激活 (或 抑制 ) 肢 基因 的 同时 激活 (或 抑制 ) 一 个 
miRNA 的 转录 ,在 转录 后 水 平 上 抑制 这 个 靶 基 因 的 翻译 过 程 。 人 研究 发 现在 miRNA 表 达 的 细 
胞 类 型 中 , 工 型 miRNA 前 馈 环 可 以 启动 这 个 miRNA 和 新 向 的 基因 ,使 其 处 于 高 表达 水 平 。 这 表 
明 miRNA 在 工 型 前 饥 环 中 对 其 靶 向 的 蛋白 起 到 微调 控 的 作用 ,维持 蛋白 的 表达 在 一 个 正常 
的 功能 范围 。 因 为 真 核 细胞 中 基因 的 转录 经 党 是 处 在 一 个 噪音 环境 中 的 ,所 以 相应 的 mRNA 
的 拷贝 会 受到 一 定 的 波动 , 除 此 之 外 ,其 他 的 一 些 因 素 比 如 mRNA 的 降解 和 蛋白质 的 翻译 也 
会 随机 的 波动 。 更 重要 的 是 ,这 些 波动 会 适当 的 沿 着 调控 网 络 蔓延 开 来 ,如 上 游 转 录 因 子 的 
波动 会 造成 下 游 基 因 的 表达 产生 波动 。 那 么 在 工 型 前 馈 环 中 ,任何 导致 上 游 转 录 因 子 偏离 
其 稳 态 的 干扰 信号 ,会 沿 着 调控 网 络 以 相同 的 干扰 趋势 引起 下 游 革 基因 和 miRNA 的 表达 偏 
离 ,此 时 由 于 工 型 前 馈 环 中 上 游 的 转录 因子 调控 靶 基 因 的 两 个 途径 的 效应 是 相反 的 ,所 以 会 
使 得 有 miRNA 介 导 的 间接 途径 在 另 一 个 相反 的 方向 去 缓冲 外 界 干 扰 ,维持 蛋白 表达 免 受 波 
动 。 例 如 ,图 10-20 所 示 在 果 蝇 细胞 中 转录 因子 Atonal 激活 E( spl ) 同 时 激活 miR-7 抑 制 E( spl ) 
的 翻译 ,缓冲 外 界 干 扰 , 维持 果 蝇 眼 睛 正常 发 育 , 进 而 决定 了 感觉 器 官 的 命运 。 

本 型 miRNA 前 馈 环 ( coherent feed-forward ) 是 转录 因子 通过 直接 途径 和 间接 途径 控制 
其 靶 基 因 的 表达 , 且 这 两 个 途径 方向 是 一 致 的 , 即 靶 基因 的 表达 同时 被 激活 或 抑制 。 这 种 网 
络 模 体 可 以 使 细胞 有 效 激活 (或 抑制 ) 那 些 在 转录 水 平 上 漏 掉 的 靶 基因 。 例 如 , c-Myc/E2F/ 
miR-17-92 环 路 (图 10-20 中 Example ), 转 录 因 子 e-Myc 启 动 细 胞 周期 进程 ,需要 激活 E2F 转 录 
因子 家 族 以 及 mir-17-92 簇 ,同时 被 激活 的 E2F 家 族 还 可 以 作用 于 mir-17-92 灸 的 启动 子 区 域 
进一步 激活 其 表达 。 而 且 这 个 荆 型 miRNA 前 馈 环 被 各 入 到 一 个 更 加 复杂 的 环 路 当中 ,因为 
mir-17-92 复 成 熟 后 还 可 以 反 过 来 抑制 E2F 家 族 , 这 个 环 路 是 一 个 工 型 前 馈 环 和 一 个 开 型 前 
侦 环 和 通 套 的 一 个 结果 ,揭示 了 c-Myc 同 时 激活 E2F 家 族 的 转录 和 抑制 其 翻译 ,从 而 精密 地 控 
制 了 分 化 信号。 

2. miRNA 参 与 的 反馈 环 ( feedback loop) 如 图 10-20 所 示 , 被 分 为 coherent 反 馈 环 和 
incoherent 有 反馈 环 。Coherent 反 馈 环 是 miRNA 与 转录 因子 之 间 对 彼此 的 调节 效应 是 相同 的 ( 即 
互相 抑制 或 者 互相 激活 ), 导 致 了 转录 因子 与 miRNA 相 互 排 斥 的 表达 (互相 抑制 ), 或 者 是 表 
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达 水 平 的 双 稳 态 (互相 激活 ), 当 一 个 瞬时 的 信和 号 改变 了 这 种 模 体 的 表达 状态 , 当 信和 号 消失 
后 模 体 的 状态 不 会 恢复 , 即 产 生 了 不 可 道 的 状态 改变 。 如 图 10-20 所 示 ,在 人 类 的 造血 干 细 
胞 中 , mir-233 和 NFI-A 形 成 了 一 个 coherent 反 馈 环 控制 粒 细 胞 性 分 化 。 在 未 分 化 的 细胞 中 ， 
mir-233 处 于 低 表 达 , NFI-A 处 于 高 表达 状态 ,然而 在 视 黄 酸 信号 作用 下 , mir-233 表 达 水 平 
上 调 并 借助 mir-233 和 NEFI-A 形 成 的 coherent 反 馈 环 导致 NFI-A 受 抑制 ,进而 削弱 了 NEFI-A 对 
mir-233 的 抑制 作用 ,最 终 促 进 了 骨髓 系 细胞 的 分 化 。Incoherent 反 馈 环 ,转录 因子 和 miRNA 
以 相反 的 方式 互相 调控 ,功能 是 微调 基因 的 表达 并 且 维 持 转录 因子 和 miRNA 表 达 水 平 的 相 
对 稳定 。 在 Incoherent 反 馈 环 依赖 于 一 个 输入 信和 号 ,使 得 miRNA 与 转录 因子 的 表达 呈现 振 功 
状态 。 例 如 ,在 线虫 外 阴 细 胞 中 , Notch 信 号 蛋白 可 以 激活 miR-61 的 转录 ,而 miR-61 反 过 来 
抑制 Notech 信 和 号 蛋白 的 翻译 过 程 ,从 而 稳定 了 外 阴 细 胞 的 状态 (图 10-20 )。 
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3. 被 miRNA 调 控 的 反馈 环 ( regulated feedback loop) 如 图 10-21 所 示 , 这 种 网 络 模 体 由 
两 个 转录 因子 和 一 个 miRNA 组 成 ,其 中 两 个 转录 因子 互相 调控 ,并 且 共 同 受到 一 个 miRNA 的 
靶 回 。 这 种 环 路 可 以 将 一 个 短暂 的 刺激 信号 传递 到 调控 环 路 之 中 ,引起 一 个 稳定 的 不 可 逆 
的 反应 状态 ,这 种 状态 对 于 与 发 育 相 关 的 调控 关系 尤其 重要 。 男 一 方面 被 miRNA 调 控 的 反 
馈 环 与 普通 的 反馈 环 相 比 较 , 可 以 阻止 偶然 性 的 激活 事件 ,因此 为 发 育 过 程 提供 一 个 稳定 的 
环境 。 

4. 混合 调控 环 和 间接 前 馈 环 ” 混合 调控 环 是 由 上 述 提 到 的 模 体 相互 租 套 得 到 的 复杂 网 
络 模 体 ,如 图 10-20 例 子 所 示 , c-Myc/E2F/miR-17-92 环 路 ,是 由 一 个 工 型 前 馈 环 和 一 个 卫 型 
miRNA 前 馈 环 散 套 得 到 的 一 个 更 加 复杂 的 环 路 。 间 接 前 馈 环 由 上 游 的 转录 因子 A 激活 下 游 
的 一 个 转录 因子 B 去 激活 一 个 miRNA ,而 这 个 miRNA 同 时 跟 转 录 因 子 B 去 调控 靶 基 因 。 

5. 双重 的 人 负 反 馈 环 ( double-negative feedback )” 即 一 个 miRNA 通 过 男 一 个 miRNA 参 与 
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的 途径 间接 调控 目 身 的 表达 水 平 ,如 线虫 的 味觉 感受 器 分 为 两 种 ASEL 和 ASER ,分 别 分 泌 不 
同 的 化 学 受 体 来 感受 和 应 对 外 界 的 输入 ,但 是 这 两 种 感受 器 是 由 同一 种 前 体 细 胞 ( ASE 神 经 
元 ) 分 化 而 来 , lsy-6 和 die-1 的 高 表达 决定 ASEL 的 稳定 状态 ; 类 似 的 mir-273 和 cog-1 的 高 表达 
决定 ASER 的 稳定 状态 。 人 研究 发 现 ASE 神 经 元 细胞 分 化 命运 的 决定 是 凭借 两 个 miRNA( lsy- 
6、mir-273 ) 和 它们 革 向 的 转录 因子 ( die-1、cog-1 ) 所 形成 的 双重 负 反 馈 环 来 完成 的 。 如 图 
10-22 所 示 , mmz273 可 以 调节 jsy-6 的 表达 是 借助 于 其 直接 靶 die-1, 同 时 /sy-6 也 可 以 通过 调节 
其 直接 靶 cog-1, 去 控制 mizr-273 的 表达 , 当 一 个 外 界 的 信号 输入 到 这 个 双重 负 反 馈 环 中 ,借助 
于 双 回 的 调 市 使 得 这 四 个 因子 的 表达 状态 稳定 下 来 ,从 而 不 可 道 地 决定 ASE 神 经 元 细胞 的 
分 化 命运 。 总 言 之 , miRNA 被 封装 到 双重 的 负 反 馈 环 ,为 miRNA 如 何 最 终 决 定 细胞 命运 提供 
了 一 个 机 制 。 
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图 10-21 被 miRNA 调 控 的 反馈 环 10-22 mir 一 273 参 与 的 双重 的 负 反 馈 环 
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目前 , HapMap 计 划 在 人 类 基因 组 中 识别 了 大 约 一 亿 个 SNP 位 点 ,这 意味 着 平均 每 100 到 
300 个 碱 基 对 就 存在 一 个 SNP。 虽 然 大 部 分 SNP 处 于 一 种 沉默 状态 ,但 是 流行 病 学 研究 显示 
基因 序列 变异 与 癌症 发 病 风险 存在 一 定 的 关联 。 这 些 多 态 通常 以 插入 、 缺 失 、 扩 增 或 者 染色 
体 异 位 的 形式 出 现 , 当 它们 位 于 miRNA 基 因 内 部 .加 工 处 理 过 程 中 或 靶 位 点 上 面 时 , 则 可 能 
影响 癌症 的 发 病 风险 .治疗 效果 以 及 预后 。SNP 作 为 人 类 基因 组 中 一 类 新 的 功能 多 态 ,不仅 
能 够 影响 miRNA 的 生成 和 表达 ,还 能 够 影响 miRNA 与 靶 基 因 的 结合 从 而 影响 靶 基因 的 表达 ， 
最 终 导 致 mRNA 的 功能 获得 或 缺失 。 例 如 , 若 miRNA 多 态 使 得 癌 基 因 的 表达 上 调 , 便 可 能 导 
致 肿瘤 的 发 生 。 同 时 ,目前 的 一 些 研究 也 显示 , miRNA 多 态 位 点 与 疾病 的 演进 以 及 宿主 对 药 
物 的 反应 之 间 存 在 紧密 的 关联 。miRNA 多 态 主要 划分 为 四 类 : 位 于 miRNA 基 因 内 的 多 态 ,位 
于 miRNA 靶 点 的 多 态 .miRNA 合 成 机 制 中 的 单 核 苷 酸 多 态 和 表 观 遗传 调控 的 多 态 。 


一 、miRNA 基 因 内 部 多 态 >) 


成 熟 miRNA 通 过 与 mRNA 的 3”UTR 区 域 结 合 从 而 实现 对 众多 靶 基 因 进 行 转录 后 调控 。 
新 近 的 研究 显示 , miRNA 种 子 序列 内 的 单个 碱 基 突 变 就 能 够 消除 miRNA 对 其 靶 基因 的 抑制 
作用 。 同 时 这 种 miRNA 序 列 内 的 多 态 对 miRNA 自身 的 转录 形成、 输出 和 调控 也 具有 重要 
的 作用 。Matthew A.Saunders 等 人 对 人 类 474 个 miRNA 进 行 系统 分 析 时 发 现 ,其 序列 内 的 SNP 
密度 低 于 侧翼 序列 内 的 SNP 密 度 。 研 究 发 现 65 个 SNP 落 入 49 个 pre-miRNA 内 ,平均 密度 约 为 
1.3 个 SNP/kb。 人 研究 人 员 通 过 对 pre-miRNA 不 同 的 功能 域 进行 划分 ,进一步 发 现 其 中 有 3 个 
SNP 落 入 了 种 子 序列 。Duan 等 人 在 研究 miRNA 基 因 内 SNP 的 分 布 时 ,也 得 到 了 相似 的 结果 。 
这 意味 着 miRNA 基 因 内 存在 SNP 多 态 。 

miRNA 生 物 合成 的 不 同 阶段 需要 不 同 的 蛋白 和 和 蛋白 复合 物 的 参与 ,包括 RNA 聚 合 酶 下 、 
Drosha/Pasha , Exportin-5/Ran-GTP 、 核 孔 复合 体 、Dicer 和 RISC 复 合 物 等 。 如 果 存 在 于 pre- 
miRNA 上 面 的 多 态 影 响 了 其 与 这 些 和 蛋白 的 结合 ,那么 这 些 多 态 将 会 影响 相应 miRNA 的 生成 
或 使 得 其 表达 下 调 。 而 位 于 miRNA 基 因 内 的 多 态 则 可 以 通过 上 自身 或 是 参与 miRNA 形 成 的 
蛋白 来 影响 miRNA 的 合成 与 成 熟 , 从 而 导致 新 的 miRNA 的 生成 各 基 因 的 识别 ,最 终 使 得 
miRNA 的 功能 缺失 或 是 获得 进一步 影响 疾病 易 感 性 和 药物 敏感 性 的 功能 。 基 于 目前 miRNA 
多 态 的 研究 成 果 ,我 们 将 miRNA 基 因 内 多 态 分 为 如 下 三 类 : 
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(一 ) {iL-Fpri—miRNA #lpre—miRNA £& A] Fr 71] P a 


Saunders，M.A. 和 Duan 等 人 利用 生物 信息 学 的 方法 进行 研究 ,发 现在 pri/pre-miRNA 内 部 存 
在 单 核 苷 酸 多 态 。 这 些 多 态 会 影响 成 熟 miRNA 的 表达 以 及 miRNA 与 其 靶 基 因 的 结合 ,甚至 还 
会 影 影响 疾病 的 发 病 风险 ， 同时 也 可 能 产生 新 的 miRNA。Wu M. 和 Calin G.A. 等 人 发 现 位 于 let-7e 
和 mir-16 前 体内 的 多 态 能 够 降低 其 成 熟 miRNA 的 表达 。 而 Duan 等 人 研究 发 现 miR-146a 的 前 体 
( pre-miRNA ) 内 存在 的 一 个 常见 SNP( rs2910164 ), 其 C 等 位 可 以 增加 miR-146a 的 表达 。Hoffman 
A.E., Tian T. 和 Peng S. 等 人 发 现 , 位 于 mir-196a-2 前 体 ( pre-miRNA ) 内 的 SNP( Rs11614913 ) 能 够 
增加 埠 患 乳腺 癌 、. 肺 交 和 骨 瘤 的 风险 ,特别 是 纯 合 的 CC 基因 型 多 态 。 同 时 该 多 态 还 能 够 影 啊 
mir-196a-2 的 成 熟 及 其 成 熟 miRNA 与 靶 基 因 的 结合 。 先 前 的 人 研究 显示 ,前 体 以 及 成 熟 miRNA 序 
列 内 的 变异 能 够 影响 miRNA 的 生物 合成 ,在 CC 基因 型 的 样本 中 miR-196a-2 的 表达 水 平 要 低 于 
TT 表 型 的 样本 。 在 肺癌 中 ,该 多 态 也 预示 者 一 个 较 差 的 预后 ,这 也 是 第 一 次 提出 miRNA 相 关 
联 的 SNP 与 癌症 的 演进 相关 。miR-146a 前 体会 产生 miR-146a( 1E ££ ) 和 miR-146a*( 负 链 ) 两 种 
miRNA。 而 位 于 miRNA-146a 前 体 的 SNP 多 态 ( rs2910164 ) 不仅 会 影响 miR-146a 的 表达 ,同时 也 
会 导致 mIR-146a*C 和 miR-146a*G 两 种 miRNA 的 生成 。 该 研究 显示 ， pri/pre-miRNA 内 mM aA 
能 够 导致 新 的 miRNA 的 产生 。 通 过 新 miRNA 对 靶 基 因 的 影响 ,该 多 态 引 起 的 改变 可 能 与 多 种 
疾病 的 发 病 风险 相关 。miR-146a*C 能 够 调控 基因 PTC7 ,而 miR-146a*G 调 控 基 因 JRAK1。 位 于 
该 多 态 位 点 的 C 等 位 能 够 影响 miR-746a 调 控 的 乳腺 癌 相 关 靶 基因 BRC47 和 BRC42 的 表达 。 换 
句 话 说 ,该 多 态 位 点 CG 基 因 型 只 患 乳腺 癌 的 风险 要 低 于 CC 和 GG 两 种 纯 合 基因 型 。 


(=) 位 于 成 熟 的 miRNA 序 列 内 


成 熟 的 miRNA 通 过 与 mRNA 的 3” UTR 区 域 结合 从 而 对 mRNA 进 行 转录 后 调控 。 其 与 
mRNA 结合 的 区 域 包 括 两 部 分 : miRNA 的 5” 端 第 2-8 个 碱 基 , 称 为 种 子 区 域 ,该 区 域 要 求 
与 mRNA 完 全 匹配 ; 种 子 区 域 附近 的 3” 端 方 癌 ,允许 一 定 程 度 的 错 配 , 称 为 3” 容错 区 域 
(3”MTR )。 位 于 这 两 部 分 的 miRNA 多 态 能 够 消除 羽化 或 增强 其 对 有 靶 基 因 的 影响 ,还 能 产 
生 新 的 结合 靶 点 。miR-146a 内 部 的 多 态 ,消除 了 其 介 导 促 凋 亡 转录 因子 的 功能 。 

根据 miRNA 与 靶 基 因 结 合 区 域 ,可 以 将 成 熟 miRNA 内 的 多 态 分 为 如 下 两 类 : 

1. 位 于 miRNA 的 5” 种 子 区 域 Saunders 等 人 的 人 研究 结果 显示 ,位 于 miRNA 种 子 区 域 的 多 
态 会 影响 miRNA 的 表达 及 其 与 靶 基 因 的 结合 。 例 如 ,位 于 miR-125a 种 子 区 域 的 多 态 显 著 的 
抑制 了 pri/pre-miRNA 的 生成 ， 导致 miRNA 表 达 减 少 。 miR-206 通 过 靶 向 ER a 上 的 两 个 靶 点 
调节 其 表达 ,而 位 于 miR-206 种 子 区 域 的 多 态 导 致 两 个 靶 点 都 失 活 ,消除 了 其 与 原来 对 基因 
的 结合 。 理 论 上 讲 , miRNA 种 子 区 域 的 多 态 可 以 使 得 其 调控 的 众多 攻 基 因 所 行使 的 功能 之 
到 影响 ,但 是 这 需要 进一步 的 实验 证 实 。 

2. 位 于 miRNA 的 3” 容错 区 域 (3” MTR) 与 种 子 区 域 不 同 的 是 ,3”MTR 区 域 允许 一 
定 程度 的 碱 基 错 配 。 但 是 ,这 一 区 域 存 在 的 插入 、 缺 失 或 者 移 位 的 多 态 位 点 依然 可 能 会 对 
miRNA 调 控 靶 基因 这 一 过 程 产生 影响 。 有 具体 的 作用 机 制 还 有 竺 进一步 全 究 证 实 。 


=. miRNA RAZA >>> 


一 般 情 况 下 , miRNA 调 节 基 因 表 达 的 方式 是 与 靶 基 因 的 3”UTR 区 域 结 合 , 进 而 降解 靶 
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问 的 mRNA 或 者 抑制 这 个 mRNA 的 翻译 过 程 。 因 此 miRNA 靶 基因 序列 上 的 多 态 性 可 以 干 
扰 miRNA 对 靶 基 因 的 结合 事件 ,而 发 生 在 miRNA 丢 基因 序列 上 的 功能 性 多 态 位 点 就 被 定 
义 为 miRNA 靶 点 的 多 态 。 因 为 人 类 基因 组 中 基因 的 3” UTR 区 域 的 序列 保守 性 较 差 ,所 以 
与 miRNA 基 因 的 多 态 性 相 比 , miRNA 靶 位 点 具有 更 丰富 的 多 态 变 异 。 全 基因 组 关联 分 析 
( genome-wide association study, GWAS ) 发 现 ,与 编码 区 非 同 义 突 变相 比 , 调 控 区 域 的 变异 更 
可 能 引起 人 类 疾病 。 由 于 miRNA 靶 点 多 人 态 可 能 干扰 或 破坏 miRNA 的 结合 位 点 或 者 产生 一 个 
新 的 miRNA 的 结合 位 点 ,进而 引起 靶 基 因 调 控 的 失调 ,所 以 它 能 影响 多 种 生物 学 过 程 ( 例 如 ， 
药物 吸收 通路 .代谢 药物 抵抗 ), 并 引发 人 类 疾病 (如 乳腺 癌 、 结 肠 癌 糖尿病 以 及 心血 管 疾 
病 等 )。 根 据 靶 基因 多 人 态 性 位 点 与 miRNA 结 合 位 点 的 位 置 关系 , miRNA 靶 点 的 多 态 性 可 以 分 
为 miRNA 结 合 位 点 上 的 多 态 性 和 miRNA 结 合 位 点 周围 的 多 态 性 。 


(一 ) miRNA 结 合 位 点 上 的 多 态 性 


成 熟 miRNA 长 约 22 个 碱 基 , miRNA 5” 末 端 的 2-8 个 碱 基 被 定义 为 miRNA 的 种 子 区 域 ， 
经 常 与 丢 基 因 3” UTR 的 结合 区 域 发 生 精 确 的 互补 匹配 ,发 生 在 靶 基 因 miRNA 结 合 位 点 上 的 
多 态 可 以 破坏 miRNA 对 基因 的 调控 作用 (包括 增强 或 者 减弱 miRNA 与 nRNA 的 结合 )。 例 如 
在 鳞 状 细胞 癌 ( SCCHN ) 中 SNP( rs8126 T 一 >C ) 落 入 到 了 基因 TNFAIP2 的 3” UTR 上 。 这 个 
区 域 恰 好 是 miR-184 在 其 靶 基 因 7TMPE47P2 上 的 种 子 结合 区 域 ,就 使 得 这 个 SNP 能 够 影响 靶 基 
因 TNFAIP2 的 表达 ,改变 鳞 状 细胞 癌 的 易 感 性 。miR-582 在 结肠 癌 中 表达 ,而 基因 CD86 上 的 
SNP 使 得 miR-582 与 其 结合 松散 ,因此 导致 CD86 的 表达 升 高 ,而 且 CD86 可 以 激活 炎 性 因子 
IL-4 的 表达 ,解释 了 miR-582 结 合 位 点 上 的 多 态 位 点 rs17281995 对 结 直 肠 癌 风 险 的 贡献 。 除 
此 之 外 靶 基 因 结 合 位 点 上 的 多 态 也 可 能 会 产生 新 的 miRNA 结 合 位 点 ,进而 导致 mRNA 对 得 
基因 的 调节 发 生 闪 乱 , 从 而 影响 疾病 的 发 生 与 发 展 。 在 12 万 个 已 知 的 发 生 在 基因 3” UTR 
上 的 SNP 中 , 约 有 17% 的 多 态 会 破坏 推测 的 保守 的 或 者 不 保守 的 miRNA 结 合 位 点 ,而 且 根 据 
Patrocles 数 据 库 , 有 8.6% 的 多 态 会 产生 新 的 预测 的 miRNA 丢 位 点 。 


(=) miRNA 结 合 位 点 周围 的 多 态 性 


miRNA 靶 点 的 多 态 除 了 位 于 miRNA 与 靶 mRNA 的 结合 位 点 ,还 可 以 位 于 miRNA 结 合 位 
点 周围 的 功能 区 域 , 这 些 多 态 也 会 影响 miRNA 对 和 靶 基 因 的 调控 作用 。 因 为 miRNA 对 靶 mRNA 
发 挥 功能 需要 和 一 些 辅助 蛋白 (比如 AGO 等 ) 共 同 作用 ,形成 RNA 诱 导 的 沉默 复合 物 ( RNA- 
induced silencing complex, RISC ) 以 及 RNA 结 合 和 蛋白 ( RBPs )。 此 外 , mRNA 的 3”UTR 区 域 还 
存在 着 一 些 调控 元 件 的 结合 位 点 ,这 些 元 件 包括 蛋白 或 重 白 复合 物 \ 细 胞 质 多 腺 并 酸化 元 件 
( cytoplasmic polyadenylation elements, CPE ),7\ & EZ 1T RSAAUAAASE, fF] WmRNAAY3” UTR 
上 存在 长 约 $0 个 碱 基 的 富 含 AU 的 序列 ( ARE ), ARE 与 nRNA 的 稳定 性 密切 相关 ,一些 蛋白 
(比如 Dicer1 和 Agol ) 可 以 辅助 ARE 对 mRNA 的 降解 。 研 究 发 现 miR-16 可 以 与 ARE 互 补 ,这 说 
明 miRNA 可 能 会 和 ARE 顺 式 调 控 元 件 相 互 作 用 ,参与 控制 mRNA 的 降解 。 因 此 位 于 miRNA 
结合 位 点 附近 的 多 态 会 影响 miRNA 对 靶 基 因 的 调控 。Mishra 发 现 miR-24 结 合 位 点 下 游 位 置 
上 有 一 个 多 态 性 位 点 829( C<->T ), 导 致 细胞 对 甲 氨 蝶 叭 的 敏感 性 发 生变 化 。 正 常生 理 状 态 
F, miR-24 可 以 结合 到 二 氧 叶酸 还 原 酶 ( DHFR ) 的 3”UTR 上 对 该 靶 基 因 的 表达 起 抑制 作 
用 ,细胞 表现 为 对 甲 氨 蝶 哈 有 较 高 的 敏感 性 。 但 是 当 该 结合 位 点 下 游 第 14 个 碱 基 发 生 突 变 
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(TC ), 破 坏 了 miR-24 与 DHFR 的 结合 ,无 法 降解 DHFR 的 mRNA ,导致 靶 基 因 二 氧 叶 酸 还 
原 酶 水 平 升 高 。 另 一 方面 , mRNA 的 3”UTR 区 域 会 形成 一 定 的 二 级 结构 。Kedde M 等 人 发 
RNA & E A Pumilio-1( PUMI ) 可 以 与 基因 zz27 的 3”UTR 互 作 ,诱导 RNA 局 部 结构 的 改 
变 , 进 而 增强 了 miR-211 和 miR-222 对 p27 的 3”UTR 的 接近 性 ,提高 了 miRNA 对 p27 的 有 效 抑 
制 。 人 研究 表明 多 数 的 miRNA 在 3”UTR 上 的 结合 位 点 都 具有 和 较 简 单 的 二 级 结构 ,这 种 简单 的 
二 级 结构 允许 miRNA 介 导 的 RISC 复 合 物 接 近 结 合 位 点 并 且 发 挥 功能 ,所 以 位 于 miRNA 邯 点 
附近 的 多 态 位 点 可 能 引起 mRNA 3’ UTR 二 级 结构 的 改变 ,从 而 影响 miRNA 与 靶 基 因 的 结合 。 


三 .miRNA 合 成 机 制 中 的 单 核 苷 酸 多 态 >> 


近 些 年 的 研究 使 得 人 们 对 于 miRNA 的 合成 机 制 有 了 更 多 的 了 解 。miRNA 的 合成 是 一 个 
复杂 的 生物 学 过 程 ,主要 分 为 三 个 阶段 ; DNA 转 录 与 加 工 合 成 pre-miRNA; pre-miRNA 转 运 出 
核 ; 前 切合 成 成 熟 miRNA。miRNA 合 成 过 程 中 的 每 个 阶段 都 有 不 同 的 蛋白 质 参与 其 中 ,这 些 
与 miRNA 合 成 密切 相关 的 蛋白 质 包 括 Drosha/DGCR8 .核酸 转运 蛋白 XPO5/RAN-GTP 和 Dicer/ 
TRBP。 因 此 ,影响 这 些 关 键 午 日 质 表 达 的 多 态 , 会 参与 调节 miRNA 的 合成 及 其 生物 学 功能 。 
本 广 主 要 讲述 在 miRNA 的 合成 机 制 中 ,不 同 阶段 相关 蛋白质 的 多 态 对 miRNA 的 影响 。 

Drosha 和 DGCCR8 加 工 DNA 转 录 生 成 的 pri-miRNA, 形 成 约 70 个 核酸 长 度 的 pre-miRNA。 
研究 发 现 Drosha 的 低 表 达 与 癌症 的 预后 和 复发 有 密切 关系 ,然而 全 基因 组 关联 分 析 表 明 
Drosha 和 DGCCR8 上 的 SNP 并 没有 显示 瘤 症 易 感 性 特征 。XPO05 和 RAN-CTP 介 导 了 pre-miRNA 
从 细胞 核 到 胞 质 的 过 程 , XP05 的 异常 表达 会 影响 成 熟 miRNA 的 合成 ,进而 影响 了 许多 疾病 
的 发 生发 展 。 例 如 ,人 研究 发 现 XP05 在 肺癌 中 频繁 下 调 , 而 在 高 级 前 列 腺 癌 样 本 中 上 调 。 由 
于 XPO5 和 RAN 参 与 miRNA 的 合成 加 工 过 程 ,所 以 这 些 基 因 上 的 SNP 会 影响 miRNA 的 稳定 性 。 
Horikawa 等 人 发 现 XPO5 上 的 SNP( rs11070 ) 增 加 了 肾 细胞 癌 的 发 病 风险 。Ryan 等 人 对 RAN 
的 SNP( rs14035 ) 人 研究 结果 表明 , RAN 上 的 多 态 能 够 阻 断 miRNA 的 核 转运 过 程 ,导致 miRNA 
合成 受到 抑制 。 这 个 SNP 的 祖先 等 位 位 于 miR-575 的 绑 定 位 点 ,突变 体 的 形成 又 构建 了 miR- 
182#* 的 绑 定 位 点 ,因此 , RAN 的 多 态 还 参与 了 miRNA 对 靶 基因 的 调节 过 程 。 

Pre-miRNA 转 运 出 核 之 后 ,通过 Dicer 和 TRBP 的 剪 切 作用 ,形成 成 熟 的 miRNA。 研 究 发 
现 低 水 平 的 Dieer 与 癌症 患者 的 低 存 活 率 相 关 。Dicer 的 3”UTR 上 的 SNP( rs3742330 ) 能够 增 
加 黏膜 昌 斑 病 和 黏膜 红斑 病 的 恶化 风险 。 另 一 项 研究 的 结果 发 现 Dicer 的 单 体型 与 肾 细 胞 瘤 
的 存活 具有 显著 的 关联 , 单 体型 AA 和 GA 能 显著 增加 肾 细 胞 癌 患 者 的 死亡 率 。Melo 的 研究 组 
识别 了 TRBP 上 的 两 个 移 码 突变 ,这 两 个 移 码 突变 诱导 产生 了 未 成 熟 的 终止 密码 子 ,进而 使 
得 TRBP 表 达 下 降 。TRBP 参 与 调节 miRNA 合 成 中 Dicer 的 稳定 性 , 当 TRBP 表 达 降 低 时 ,会 导 
致 Dicer 不 稳定 和 miRNA 的 合成 减少 。 

RISC 参 与 指导 单 链 的 成 熟 miRNA 识 别 和 和 靶 mRNA 的 特定 位 点 绑 定 。 该 复合 物 中 
GEMIN3 上 的 非 同 义 SNP( rs197412 ) 的 变异 等 位 基因 降低 了 口腔 疾病 的 发 病 风 险 。GEMIN3 
的 为 一 个 SNP( rs197414 ) 与 膀胱 癌 和 食管 癌 的 高 发 病 风 险 显著 相关 。 因 此 , GEMIN3 的 变异 
能 够 影响 miRNA 的 内 稳 态 ,进而 调节 细胞 的 信号 通路 。 | 

FUT , DEAE A PUSH | SE DIp53Z 5 miRNAMI A XE. p53 5jp68 , Drosha H/F ,促进 
了 pri-miRNA 到 pre-miRNA 加 工 过 程 。p53 的 变异 与 癌症 之 间 存 在 密切 关系 。 因 此 , p53 上 与 
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miRNA 合 成 相关 的 突变 或 者 SNP 可 能 会 增加 或 者 降低 瘤 症 的 发 生 风险 。 








四 、miRNA 多 态 改 变 表 观 遗传 调控 了》》 


miRNA 的 表达 受 表 观 遗 传 沉默 的 影响 。miRNA 的 表 观 沉默 最 初 是 在 乳腺 癌 的 发 病 过 程 
中 被 发 现 。 在 乳腺 癌 的 早期 , 某 些 miRNA 的 表 观 沉默 是 很 频繁 的 。 很 多 miRNA 都 由 于 异 背 
的 高 甲 基 化 而 受 表 观 遗传 沉默 的 影响 。Lehmann 等 针对 71 例 乳腺 癌 患 者 研究 发 现 miR-9-1、 
miR-124a3 .miR-148 .miR-1$2 和 miR-663 在 34%~86% 的 患者 中 具有 异常 的 高 甲 基 化 。 因 此 ， 
miRNA 的 异常 高 甲 基 化 与 癌症 的 发 生 密 切 相 关 。 而 在 肺癌 中 Let-7 家 族 是 下 调 的 ,已 有 证 据 
证 明了 Let-7a-3 是 低 甲 基 化 的 ,这 也 证 明了 miRNA 可 能 在 恶性 肿瘤 中 具有 两 种 作用 。 引 起 
miRNA 表 观 遗 传 调控 改变 的 多 态 人 研究 是 一 个 新 的 研究 领域 。 由 于 miRNA 多 态 所 导致 的 原 癌 
基因 或 抑 癌 基 因 表 观 遗 传 调控 的 缺失 或 获得 在 细胞 中 可 能 具有 决定 性 的 影响 ,因此 人 们 可 
以 利用 改变 表 观 遗传 调控 的 miRNA 多 态 来 研究 疾病 发 生 的 机 制 。 

里 然 现 在 已 经 有 case-control 实 验 探 索 了 异常 的 表 观 调控 和 癌症 发 病 风 险 之 间 的 关系 ， 
但 是 这 种 遗传 变异 形式 所 蕴含 的 意义 在 整体 水 平 上 还 是 未 知 的 。 此 外 , CpG 岛 中 的 miR- 
SNP 很 可 能 影响 miRNA 的 表达 模式 ,进而 影响 癌症 的 易 感 性 。 一 个 miRNA 的 启动 子 中 出 现 了 
一 个 SNP( 无 论 是 不 是 CpG 岛 ), 它 可 能 会 影响 miRNA 的 表达 水 平 。 确 实 Sevignani 等 人 发 现 易 
感 肿 瘤 的 大 鼠 中 大 多 数 是 miRNA 基 因 序 列 上 的 差异 ,而 不 是 大 鼠 的 抗 肿瘤 基因 的 启动 子 上 
的 改变 。 

【 例 10-5 结合 miRNA 表 达 谱 和 SNP 谱 分 析 miRNA 与 疾病 的 关系 

在 理解 了 SNP 与 miRNA 之 间 的 关系 后 ,我们 通过 一 个 基本 的 例子 ,人 简要 介绍 一 下 miRNA 
数据 是 如 何 与 SNP 数 据 结合 使 用 的 。 这 个 例子 的 目的 ,就 是 通过 加 入 SNP 信 息 , 优 化 差异 表 
达 miRNA 的 计算 方法 。 

L 数据 ”首先 ,我 们 需要 获得 有 类 标签 (疾病 /正常 ) 的 miRNA 表 达 谱 和 SNP 谱 ,同时 还 
需 准备 miRNA 在 染色 体 上 的 位 置信 息 , 以 及 SNP 在 染色 体 上 的 位 置信 息 。 

2. 检验 ”在 这 一 步骤 中 ,我们 需要 使 用 不 同方 法 对 miRNA 和 SNP 数 据 进行 分 析 ,确定 某 
个 miRNA 或 SNP 是 否 与 疾病 相关 。 与 传统 的 差异 表达 基因 计算 方法 类 似 , 我 们 使 用 两 样本 t 
检验 对 miRNA 数 据 进 行 处 理 。 公 式 如 下 : 


TEN ai. 
OV S ( 10-6 ) 
nm ç M, 


在 面 对 海 量 数据 时 ,由 于 检验 次 数 过 多 , 检验 这 种 传统 的 单 变 量 分 析 方 法 的 检验 效能 
是 较 低 的 。 因 此 ,我们 可 以 加 入 SNP 数 据 进行 辅助 分 析 。 对 于 离散 型 的 SNP 数 据 ,我 们 使 用 
卡 方 检验 对 数据 进行 处 理 : 


E, =X, ( 10-7) 
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rm yin ESI (KR, +K,S,) 
R+S ( 10-8 ) 


i-l 


其 中 , R 和 5 分 别 代表 正常 组 和 疾病 组 的 样本 计数 ,而 i 则 代表 SNP 亚 型 的 分 类 数目 。 公 
式 所 描述 的 是 当 基 因 型 数量 为 2 的 情况 。 例 如 , R 表 示 正 常 样本 中 基因 型 为 “CC” 纯 合 的 样 
本 数目 ,而 S, 则 表示 疾病 样本 中 基因 型 为 “CG” 杂 合 的 样本 数目 。 

3. 整合 在 分 别 得 到 所 有 miRNA 与 SNP 的 显著 性 之 后 ,如 何 将 它们 进行 统一 就 成 了 首 

i 为 此 ,我 们 需要 将 有 联系 的 miRNA 与 SNP 进 行 多 对 多 映射 。 通 过 前 面 的 内 容 我 
们 知道 SNP 可 以 通过 很 多 途径 影响 miRNA 的 表达 ,为 了 便于 理解 ,在 这 个 例子 中 我 们 仅 考 虑 
落 在 miRNA 内 的 SNP 对 miRNA 表 达 的 影响 。 通 过 miRNA 和 SNP 在 染色 体 上 的 位 置信 息 ,我 们 
就 可 以 找 出 所 有 落 入 miRNA 内 的 SNP 位 点 了 。 当 许多 SNP 落 入 同一 个 miRNA 时 ,我 们 仅 取 x 
值 最 大 的 SNP ,这样 就 使 得 miRNA 与 SNP 一 一 对 应 了 o 

此 时 ,我 们 使 用 meta 分 析 中 常用 的 Fisher 组 合 概率 检验 ,就 可 以 将 对 miRNA 和 SNP 检 验 得 
到 的 两 个 p 值 整合 成 一 个 统计 量 了 。 公 式 如 下 : 


7= -2> (n) ( 10-9) 


其 中 ,k 表 示 检 验 个 数 , 即 k=2。 这 样 ,对 这 个 x 统计 量 进行 检 验 就 得 到 了 最 终 的 p 值 , 描 
述 了 在 SNP 信 息 辅 助 的 情况 下 ,我 们 得 到 的 两 种 状态 下 (疾病 /正常 ) miRNA 表 达 没 有 变化 的 
概率 。 当 它 显 著 时 ,就 可 以 说 明 miRNA 在 两 种 状态 下 表达 不 同 了 。 
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Section 1 Introduction 





在 证 实 DNA 承 载 着 可 遗传 的 分 子 信息 之 前 ,科学 家 已 经 发 现 尽管 机 体 的 所 有 细胞 拥有 
相同 的 遗传 信息 即 相 同 的 基因 组 DNA 序 列 , 却 并 不 是 每 个 基因 在 各 个 细胞 内 都 具有 表达 活 
YEs Waddington 把 这 一 现象 定义 为 “ 表 观 遗传 学 ”( epigenetics ), 这 门 学 科 主 要 是 探索 不 涉 
及 DNA 序 列 改 变 , 由 DNA 甲 基 化 谱 、 染色 质 结 构 状 态 等 改变 而 导致 基因 功能 的 变化 并 在 细胞 
代 间 遗传 的 现象 的 本 质 和 规律 。 

表 观 遗传 学 研究 已 有 60 多 年 的 历史 , 近 些 年 来 随机 的 或 环境 诱导 的 表 观 遗传 改变 已 经 
成 为 生命 科学 及 现代 医学 研究 领域 的 热点 ,不 仅 在 癌症 中 发 现 了 表 观 遗传 修饰 的 改变 ,在 其 
他 非 癌症 的 疾病 包括 免疫 系统 疾病 .心血 管 疾病 .神经 性 疾病 和 代谢 性 疾病 等 的 发 病 机 人 制 的 
研究 中 也 发 现 与 表 观 遗传 异常 有 天。 

高 通 量 实验 技术 的 发 展 及 其 在 表 观 遗传 学 研究 领域 的 应 用 ,已 经 从 基因 组 水 平 检测 出 
一 些 导 致 疾病 发 生 的 表 观 遗传 异常 ,包括 基因 组 局 部 或 全 局 的 DNA 甲 基 化 的 改变 和 染色 质 
E AE TB A FR ACHE OP Tp BOE Se A | ETA PEGA Fed, PA Pe WL FEE AR TR 
起 了 遗传 学 和 环境 之 间 的 桥梁 ,通过 对 表 观 遗传 现象 和 机 制 的 深入 研究 有 助 于 理解 个 体 间 
遗传 背景 \ 环 境 及 衰老 与 疾病 之 间 的 关系 。 

计算 表 观 遗传 学 的 研究 浪潮 源 于 高 通 量 实验 技术 下 飞速 出 现 的 海量 基因 组 范围 的 表 观 
遗传 修饰 的 数据 ,生物 信息 学 的 算法 和 工具 ,对 解决 表 观 遗传 学 领域 的 各 种 问题 起 到 了 重要 
作用 。 结 合 传统 的 基因 组 学 、 计 算 机 科学 、 数 学 以 及 生物 化 学 、 和 蛋白 质 组 学 所 获得 的 表 观 遗 
传 学 的 结论 ,不仅 可 以 指导 实验 设计 ,还 能 实现 仅仅 由 传统 实验 方法 不 能 做 到 的 详细 分 析 复 
杂 的 基因 组 信息 的 目的 。 基 于 计算 表 观 遗传 学 发 展 起 来 的 方法 和 工具 ,大 规模 的 分 析 不 依 
赖 于 基因 序列 的 可 遗传 的 显 型 改变 ,基因 功能 和 基因 表达 ,为 了 解 转录 调控 ,发 育 和 疾病 过 
程 提 供 了 高 效 实用 的 工具 。 
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第 二 三 
表 观 基因 组 图 庶 绘 制 


Section 2 Mapping of Epigenome Profiles 


表 观 遗传 学 是 当前 生物 医学 领域 中 发 展 较 快 的 研究 热点 之 一 ,已 经 在 人 类 的 多 种 疾病 
中 发 现 了 表 观 遗传 改变 现象 。 在 过 去 的 10 年 内 , 随 着 生物 实验 技术 的 革命 ,可 以 从 全 基因 组 
水 平 考察 表 观 遗传 修饰 的 变化 ,被 称 为 “ 表 观 基因 组 ”研究 。 表 观 基 因 组 是 由 所 有 基因 组 范 
围 的 染色 质 修饰 组 成 ,包括 DNA 甲 基 化 和 组 和 蛋 晶 修饰。 染色 质 修饰 的 不 稳定 性 使 得 表 观 基 
因 组 呈现 出 动态 变化 ,为 生物 体 提 供 了 啊 应 和 适应 环境 信号 的 基因 表达 调控 的 机 制 。 心 片 
技术 及 新 一 代 测 序 技术 为 研究 者 提供 了 绘制 各 种 生命 状态 (如 疾病 状态 的 组 织 或 细胞 和 正 
常 组 织 或 细胞 ) 全 基因 组 范围 内 高 分 辩 率 的 DNA 甲 基 化 和 重 白 质 翻 译 后 修饰 (如 组 蛋 日 修 
饰 ) 图 谱 的 工具 ,实现 从 单个 基因 到 基因 组 全 局 水 平 的 研究 人 类 疾病 的 发 生发 展 过 程 。 


一 、 绘 制 基因 组 范围 的 DNA 甲 基 化 谱 >> 


(一 ) DNA 甲 基 化 


DNA 甲 基 化 是 目前 为 止 研 究 比 较 成 熟 的 表 观 遗传 修饰 之 一 ,是 导致 一 些 人 类 疾病 发 生 
发 展 的 重要 表 观 遗传 修饰 改变 ,特别 是 在 肿瘤 等 疾病 的 发 病 中 。 哺 乳 动 物 中 DNA 甲 基 化 是 
通过 DNA 甲 基 转 移 酶 ( DNA methyltransferase ) 的 作用 ,在 5' em e- IAE- 二 核 芽 酸 
( CpG ) 内 的 胞 喀 吗 第 5 位 碳 原 子 上 添加 来 日 于 S- 肋 车 甲 硫 氨 酸 (SAM ) 的 甲 基 ( CH, ) 基 团 ， 
目前 的 研究 发 现在 非 CpG 的 胞 喀 啶 上 也 可 能 发 生 甲 基 化 (图 11-1 )。DNA 甲 基 化 通常 通过 影 
响 甲 基 化 -敏感 的 DNA 结 合 和 蛋白 和 (或 ) 改变 DNA 到 启动 子 的 接近 性 组 重 日 不 同 修饰 的 相互 
作用 而 引起 基因 沉默 。 大 量 研 究 已 经 表明 , DNA 甲 基 化 的 功能 是 多 种 多 样 的 ,包括 使 转录 
原件 沉默 ,对 发 育 相 关 基 因 的 调控 和 转录 哗 声 的 减少 。 人 研究 已 经 发 现 异常 的 甲 基 化 模式 发 
生 在 多 种 人 类 疾病 中 ,包括 癌症 , ICF 综 合 征 ( immunodeficiency-centromeric instability-facial 
anomalies syndrome ,表现 为 免疫 缺陷 .着 丝 粒 不 稳定 性 、 面 部 异常 ), ATRX 综 合 征 ( a -地 中 海 
贫血 ,表现 为 精神 发 育 迟 组 ), 以 及 脆性 X 染 色 体 综合 征 等 。 


(二 ) DNA 甲 基 化 的 分 布 和 检测 
1. 基因 组 上 DNA 甲 基 化 检测 技术 发 展 测定 全 基因 组 范围 的 DNA 甲 基 化 对 于 理解 表 
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图 11-1 DNAP RU X4 


观 遗 传 学 的 作用 机 制 是 极其 重要 的 。 早 在 1970 年 就 开始 了 通过 甲 基 化 敏感 性 限制 内 切 酶 的 
方法 测定 全 局 的 DNA 甲 基 化 含量 ,如 Kawai 等 开发 了 限制 性 内 切 酶 或 者 限制 性 的 标记 的 基因 
组 扫 摘 (restriction landmark genome scanning, RLGS ) 方 法 测定 少量 基因 区 域 在 各 组 织 间 的 
DNA 甲 基 化 。 然 而 ,这 种 方法 实验 精度 和 广度 受到 酶 切 位 点 的 限制 ,不 适用 于 完全 的 基因 组 
扫描 。 

为 了 解决 这 个 问题 , Frommer 等 人 在 1992 年 引入 亚 硫 酸 氧 盐 转 换 技术 来 精确 地 测定 DNA 
甲 基 化 ,使 甲 基 化 测定 技术 取得 了 革命 性 进展 ,该 技术 被 誉 为 测定 胞 喀 啶 甲 基 化 的 “ 金 标 
准 “。 重 亚 硫 酸 盐 预 处 理 方 法 的 发 现 引 发 了 甲 基 化 胞 喀 啶 高 精确 性 测定 的 革命 ,这 种 方法 已 
被 多 个 大 型 甲 基 化 测定 计划 所 采用 ,其 中 就 包括 人 类 表 观 基因 组 计划 (HEP )。 然 而 ,由 于 该 
方法 实验 成 本 较 高 ,限制 了 其 在 基因 组 范围 的 应 用 。 

为 了 解决 这 些 限制 , Weber 等 人 基于 染色 质 免疫 共 沉 省 原理 ,利用 特定 抗体 对 甲 
基 化 区 域 的 亲 和 纯 化 作用 ,开发 了 甲 基 化 DNA 免 疫 共 沉淀 测定 技术 ( methylated DNA 
immunoprecipitation, MeDIP ), 该 技术 采用 甲 基 化 胞 喀 喧 特异 的 抗体 获得 甲 基 化 的 DNA 序 列 
片段 。MeDIP 与 朝 核 苷 酸 芯 片 的 结合 ( MeDIP-chip ) 为 DNA 甲 基 化 谱 的 测定 提供 了 一 个 有 效 
的 手段 。 

另外 ,下 一 代 测 序 技 术 的 发 展 促成 了 甲 基 化 测定 技术 的 第 二 次 革命 ,开发 了 一 些 基于 测 
序 的 甲 基 化 实验 技术 ,如 MethylC-Seqg、RRBS 和 MeDIP-seq 等 ,这 些 技术 中 的 大 部 分 方法 都 可 
以 实现 测定 全 基因 组 范围 内 单 碱 基 水 平 的 DNA 甲 基 化 数据 ,已 经 被 广泛 用 于 测定 大 型 基因 
组 区 域 中 的 DNA 甲 基 化 模式 。 

目前 已 有 的 测定 DNA 甲 基 化 的 技术 ( 表 11-1 ) 产 生 的 数据 大 部 分 都 可 以 通过 0 到 1( 或 0% 
到 100% ) 之 间 的 连续 值 来 表示 甲 基 化 程度 的 高 低 。 因 此 高 精度 的 甲 基 化 数据 使 得 定量 解释 
DNA 申 基 化 差异 调控 基因 表达 的 机 制 成 为 可 能 。DNA 甲 基 化 模式 的 描述 及 广泛 的 DNA 甲 基 
化 谱 绘 制 可 以 帮助 理解 在 发 育 的 特定 阶段 以 及 疾病 的 发 生 中 基因 组 的 表 观 遗传 改变 如 何 使 
特定 基因 表达 模式 发 生变 化 。 À 


表 11-1 各 种 测定 DNA 甲 基 化 的 技术 


下 一 代 测 序 技术 芯片 杂交 技术 d 
| 其 他 


亲 和 纯 化 BURR BY FMA 重 亚 硫 酸 盐 
© MSCC ©MeDIP-seq ©MethylC-Seq OCHARM ©MeDIP- OGoldenGate | (OMS-AP-PCR 
OMethyl-MAPS O©OMIRA-seq CORRBS ©MCAM OMIRA . Olnfinium ORLGS 


© Methyl-seq CO Mi1GS © BC-seq ODMH OmDIP ©BiMP O Sanger BS 
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续 表 
RRR 芯片 杂交 技术 
HHD —— 亲 和 纯 化 重 亚 硫 酸 盐 —— 酶 切 kme EEA 
©BSPP OMMASS OmCIP © MS-SNuPE 
© HELP OCOBRA 
© MethylScope © Southern blot 
© AIMS 


jk: 数据 来 源 ; Laird, PW ( 2010) Nat Rev Genet,11 : 191-203, 


2. DNA 甲 基 化 检测 技术 介绍 

( 1) 核酸 内 切 酶 消化 : 在 分 子 生物 学 人 研究 领域 ,限制 性 核酸 内 切 酶 是 一 种 有 力 的 研究 工 
具 。 每 个 序列 特异 限制 酶 都 对 应 一 个 DNA 甲 基 化 转移 酶 ,该 酶 能 保护 内 源 性 DNA 免 受 外 界 
RES Sen] ,一 些 限 制 性 内 切 酶 在 甲 基 化 的 胞 喀 啶 处 结合 的 明显 减少 ,因此 这 些 酶 切割 的 模式 
能 够 用 来 判定 DNA 序 列 的 甲 基 化 状态 。 其 中 使 用 最 广泛 的 甲 基 化 敏感 限制 酶 对 包括 Hpall- 
MspI( CCGG ) AlSmal—Xmal( CCCGGG )。 

以 5” -CCGG-3' 位 点 为 例 ,不 管 其 中 的 CpG 甲 基 化 与 否 , Msql 均 能 切割 CCGG 序 列 ,而 
Hpall 只 切割 没有 甲 基 化 的 CCGG 序 列 。 因 此 ,如 果 两 个 酶 消化 的 片段 相同 ,说 明 该 CpG 位 点 
是 未 甲 基 化 的 ; 大 不 同 , 则 表明 该 CpG 位 点 是 甲 基 化 的 ,从 而 利用 该 限制 酶 对 可 以 用 来 区 分 
CCmeGG 和 和 CCGG。 

基因 组 序列 的 酶 切 处 理 与 不 同 的 碱 基 测 定 技 术 结 合 产 生 了 不 同 的 DNA 甲 基 化 测定 
技术 。20 世 纪 70 年 代 和 80 年 代 初 期 , 甲 基 化 敏感 限制 酶 的 消化 DNA 序 列 ,结合 凝 胶 电泳 和 
Southern blots 杂 区, 用 于 一 些 基因 座 特异 的 研究 。 这 种 酶 切 消化 甲 基 化 敏感 位 点 与 PCR 技 术 
的 结合 ,是 一 种 非常 敏感 的 技术 ,至 今 仍 应 用 于 一 些 人 研究 中 。 

从 20 志 纪 90 年 代 起 ,人 们 又 开发 了 多 种 基于 酶 切 的 方法 测定 基因 组 范围 的 DNA 甲 基 化 。 
其 中 ,限定 标记 基因 组 扫描 法 ( RLGS ) 是 第 一 个 用 于 检测 基因 组 范围 DNA 甲 基 化 谱 的 技术 ， 
该 方法 是 基于 二 维 凝 胶 电 泳 来 测定 实验 样本 和 对 照样 本 间 的 甲 基 化 差异 ,已 经 广泛 应 用 于 
筛选 癌症 特异 的 印记 基因 /位 点 。 类 似 的 方法 还 有 甲 基 化 敏感 随机 性 引物 PCR( methylation- 
sensitive arbitrarily primed PCR, MS-AP-PCR ) 和 甲 基 化 间 区 位 点 扩 增 (amplification of inter- 
methylated sites, AIMS ) 等 。 

目前 , 随 着 忌 片 技术 以 及 测序 技术 的 不 断 发 展 ,这 些 基于 凝 胶 电 瀛 的 DNA 甲 基 化 技术 
的 应 用 越 来 减少 。 甲 基 化 CpG 岛 扩 增 法 ( methylated CpG island amplification, MCA ) 就 是 酶 
切 方法 与 芯片 技术 结合 的 典型 技术 之 一 ,该 方法 利用 的 是 甲 基 化 敏感 限制 酶 对 SmaI-Xmal， 
两 种 酶 对 SmaI 和 XmaI 对 CCCGGG 片 段 甲 基 化 敏感 性 和 切割 方式 存在 差异 性 ,无 论 该 片段 中 
的 CpG 位 点 是 否 甲 基 化 , Xmal 均 对 其 进行 切割 ,而 Smal 只 切割 未 发 生 CpG 甲 基 化 的 片段 。 但 
是 ,该 方法 与 其 他 基于 4bp 碱 基 识 别 序列 的 其 他 酶 切 方法 相 比 , MCA 方法 的 精度 较 低 。 一 种 
替代 方法 是 差异 甲 基 化 杂交 (DMH ), 该 方法 基于 双色 微 阵列 分 别 与 甲 基 化 敏感 限制 酶 消化 
和 模拟 消化 DNA 序 列 杂 交 , 再 根据 相对 的 葡 光 信和 号 强度 来 提取 阵列 上 对 应 位 点 的 DNA 甲 基 
化 信息 。 基 于 DMH ,人 们 提出 了 很 多 改进 的 方法 ,如 利用 内 切 核酸 酶 MerBC 的 方法 ,与 甲 基 
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化 敏感 酶 相 比 ,该 方法 能 够 为 高 密度 甲 基 化 的 区 域 中 甲 基 化 水 平 的 测定 提供 更 高 的 精度 。 
其 中 最 优化 的 方法 是 全 面 高 通 量 芯 片 相 对 甲 基 化 技术 ( comprehensive high-throughput arrays 
for relative methylation, CHARM ), 该 技术 已 经 被 广泛 用 于 人 研究 癌症 特异 的 以 及 干细胞 特异 的 
DNA 甲 基 化 区 域 分 析 。 

逐渐 下 一 代 测 序 技术 也 用 于 测定 基于 酶 切 方法 富 集 出 的 甲 基 化 片段 。 基 于 序列 的 分 析 
更 加 灵活 和 强大 ,因为 它 允 许 等 位 基因 特异 DNA 甲 基 化 分 析 , 不 需要 预先 设计 探 针 ,即使 在 
较 少 的 DNA 样 品 中 仍 能 履 盖 全 基因 组 。 其 中 最 为 常用 的 技术 是 甲 基 化 测序 ( Methyl-seq ) 和 
甲 基 化 敏感 切割 位 点 计数 ( methylation-sensitive cut counting, MsCC ) 等 。 

(2 ) 亲 和 人 性 富 集 : 目前 的 研究 已 经 证 实 染 色 质 免疫 共 沉 演 ( ChIP ) 是 一 种 对 于 组 蛋 日 修 
饰 全 基因 组 研究 特别 有 用 的 技术 。 相 似 的 , 甲 基 化 胞 喀 喧 特异 的 抗体 (在 变性 DNA 附 近 ) 或 
者 用 对 甲 基 化 的 局 部 基因 组 DNA 有 亲和力 的 甲 基 绑 定 重 日 ,可 以 用 来 测定 基因 组 范围 的 
DNA 甲 基 化 。 

Cross 等 人 利用 甲 基 绑 定 重 日 MECP2 ,第 一 次 实现 了 甲 基 化 DNA 的 亲 和 纯 化 。 杀 和 纯化 
后 ,将 甲 基 化 相关 的 片段 杂交 到 芯片 来 测定 DNA 甲 基 化 的 水 平 ,这 种 方法 被 命名 为 MeDIP- 
chip。 除 了 与 芯片 杂交 的 结合 外 , 目前 人 们 更 多 地 将 亲 和 纯 化 与 下 一 代 测 序 技术 联合 起 来 ， 
称 这 种 方法 为 MeDIP-seq。 

基于 亲 和 纯 化 的 DNA 甲 基 化 测定 技术 已 经 广泛 地 应 用 到 检测 植物 .小 鼠 以 及 人 类 等 各 种 
细胞 的 甲 基 化 数据 谱 中 。 尽 管 这 种 方法 能 够 快速 有 效 地 对 基因 组 范围 的 DNA 甲 基 化 进行 评 
佑 ,然而 这 些 甲 基 化 信息 的 精度 仅 限于 基因 组 区 域 ,并 不 是 单 碱 基 水 平 的 ,而 且 对 于 不 同 CpG 
密度 的 基因 组 区 域 测定 的 DNA 甲 基 化 信息 ,还 需要 进行 实验 的 或 者 生物 信息 学 的 校正 处 理 。 

(3 ) 重 亚 硫 酸 盐 转换 : 20 世 纪 90 年 代 , 人 们 发 现 通 过 亚 硫 酸 氢 钠 处 理 , 非 甲 基 化 的 胞 喀 
BECC ) 被 脱毛 基 作用 而 变 成 尿 喀 啶 (U ), 在 随后 的 PCR 反 应 中 尿 喀 啶 (UU ) 变 成 胸腺 喀 喧 (T); 
而 甲 基 化 的 胞 喀 啶 (5-MeC ) 不 能 被 脱氧 基 , 这 一 发 现 促 成 了 DNA 甲 基 化 分 析 领 域 的 革命 性 
进展 。 亚 硫酸 氢 钠 将 非 甲 基 化 胞 喀 啶 转换 为 胸腺 喀 啶 的 反应 使 得 许多 新 的 DNA 甲 基 化 检测 
和 分 析 技 术 的 开发 成 为 可 能 。 

最 初 的 重 亚 硫 酸 盐 转换 DNA 的 分 析 是 由 单位 点 克隆 PCR 产 物 的 桑 格 测序 实现 的 。 许 
多 增强 的 功能 从 那 以 后 也 有 所 发 展 ,包括 PCR 产 物 的 定量 直接 桑 格 测序 以 及 更 为 自动 化 的 
DNA 甲 基 化 测定 技术 。 

人 们 将 重 亚 硫酸 盐 处 理 和 芯片 杂交 技术 相 结 合 ,开发 出 了 重 亚 硫酸 盐 甲 基 化 说 
( bisulfite methylation profiling, BiMP ), 该 方法 通过 杂交 阵列 来 分 析 重 亚 硫 酸 盐 处 理 过 的 
DNA, ,需要 在 对 一 个 专用 的 寡 核 背 酸 阵列 杂交 前 ,基因 组 单个 区 域 扩 增 ,实质 上 是 适当 的 比 
例 增 大 位 点 特异 阵列 。 值 得 注意 的 是 ,这 种 方法 依赖 于 非 重 亚 硫 酸 盐 转 换 DNA 建 立 的 微 阵 
列 ,因此 ,作为 非 甲 基 化 胞 喀 啶 残留 物 转换 引起 的 错 配 的 结果 ,潜在 的 甲 基 化 靶 序列 内 外 全 
部 杂交 信和 号 都 是 低 的 。 由 于 它们 保留 更 多 的 Cs ,产生 出 相对 强 的 信号 ,密集 胞 喀 啶 甲 基 化 区 
域 受到 的 影响 最 少 。 所 以 , BiMP 仅 适用 于 小 基因 组 甲 基 化 密集 区 。 

此 外 , Tllumina 公 司 将 其 GoldenGate 磁 珠 技术 进行 了 改进 ,并 与 重 亚 硫酸 盐 处 理 相 结合 ， 
用 其 来 查询 人 类 基因 组 DNA 样 本 中 CpG 位 点 的 DNA 甲 基 化 。 该 技术 首先 通过 重 亚 硫 酸 盐 对 
DNA 序 列 进行 处 理 ,然后 用 甲 基 化 和 非 甲 基 化 特异 的 引物 提取 甲 基 化 和 非 甲 基 化 的 CpG 位 
点 所 在 的 片段 ,并 用 不 同 的 痰 光 染 料 标 记 , 随 后 将 提取 出 的 产物 结合 到 磁 珠 发 片 上 进行 测 
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定 ,最 后 根据 甲 基 化 和 非 甲 基 化 的 磁 珠 的 计数 来 估计 每 个 位 点 的 申 基 化 水 平 。 该 技术 最 初 
只 能 测定 1536 个 不 同 CpG 位 点 ,随后 将 位 点 数目 扩展 至 27 578 个 。 目 前 该 方法 已 经 支持 同 
时 测定 >485 000 个 CpG 点 ,全 面 覆 盖 了 96% 的 CpG 岛 ,并 根据 需求 加 入 了 CpG 岛 以 外 的 CpG 位 
点 、 人 类 干细胞 非 CpG 甲 基 化 位 点 、 正 常 组 织 与 肿瘤 (多 种 癌症 ) 组 织 差异 甲 基 化 位 点、 编码 
区 以 外 的 CpG 岛 、miRNA 启 动 子 区 域 和 已 通过 GWAS 的 疾病 相关 区 域 的 位 点 ,每 张 必 片 可 平 
行进 行 12 个 样本 的 检测 ,因此 它 非常 适合 大 量 样本 分 析 。 

尽管 重 亚 硫酸 盐 转 换 与 DNA 到 阵列 杂交 能 够 提供 多 样本 DNA 甲 基 化 的 分 析 , 但 是 显然 
这 种 方法 测定 的 位 点 数量 仍然 有 限 。 人 们 基于 下 一 代 测 序 技术 ,开始 了 多 种 高 通 量 单 碱 基 
的 DNA 甲 基 化 测定 技术 。 由 于 哺乳 动物 庞大 的 基因 组 和 复杂 的 细胞 状态 , 目前 基于 PCR 或 
全 基因 组 马 枪 法 效率 都 很 低 。 

Meissner 等 开发 了 人 简约 重 亚 硫 酸 盐 测序 技术 ( reduced representation bisulphite sequencing, 
RRBS ), 该 方法 仅 对 通过 BglI 或 者 MspI 从 庞大 的 基因 组 选择 特定 的 区 域 进行 测序 ,提高 了 
基因 组 范围 内 CpG 位 点 甲 基 化 状态 测定 的 效率 。 在 为 一 个 重 亚 硫 酸 盐 测序 技术 ( bisulphite 
conversion followed by capture and sequencing, BC-seq ) 中 , 则 通过 忆 片 获取 重 亚 硫酸 盐 处 理 后 
DNA 并 用 PCR 扩 增 ,从 而 为 创建 测序 文库 获得 充足 的 DNA。 最 终 的 综合 单 碱 基 分 辨 率 DNA 
甲 基 化 分 析 的 技术 则 是 全 基因 组 重 亚 硫酸 盐 测 序 。 全 基因 组 乌 枪 重 亚 硫酸 盐 测序 ( whole- 
genome shotgun bisulfate sequencing, WGSBS ) 在 Ilumina 基因 组 分 析 平 台 上 已 经 得 以 实现 ,并 
对 小 真 核 生 物 基 因 组 (如 拟 南 芥 ) 和 哺乳 动物 DNA( 如 人 类 ) 进行 的 测定 分 析 。 虽 然 在 哺乳 
动物 基因 组 上 约 十 分 之 一 的 CpG 二 核 苷 酸 仍 然 难以 被 亚 硫 酸 氧 盐 转 换 的 片段 履 凑 ,但 增长 
的 读 取 片 段 的 长 度 和 双 末 端 测序 策略 促成 了 WGSBS 的 实现 及 其 更 为 广泛 的 应 用 。 


(三 ) 不 同 甲 基 化 谱 方法 间 的 比较 


DNA 甲 基 化 方法 的 直接 比较 受 不 同 技术 的 复杂 性 和 差异 限制 。 许 多 方法 都 有 苋 争 优势 
和 劣势 。 对 于 DNA 甲 基 化 测定 技术 的 选择 除了 考虑 履 盖 率 和 分 辨 率 , 还 受 样本 数量 和 DNA 
质量 和 数量 的 影响 。 此 外 ,还 要 考虑 被 研究 的 物种 ,如 基于 芯片 的 方法 ,需要 已 有 的 物种 心 
片 的 支持 ; 而 基于 测序 的 方法 , 则 由 于 参考 基因 组 的 存在 ,一 般 可 应 用 于 任意 物种 。 


二 、 高 通 量 染 色 质 修饰 谱 的 测定 >> 


(一 ) 组 蛋 日 修饰 


组 蛋白 修饰 (histone modification ) 是 真 核 生 物 中 染色 质 的 主要 修饰 之 一 ,具有 组 织 特 异 
性 ,对 外 界 环境 变化 敏感 ,并 对 基因 表达 起 到 关键 调控 作用 。 在 疾病 细胞 中 ,组 绰 白 修饰 模 
式 亦 发 生 改变 。 尽 管 发 现 组 蛋白 修饰 几 十 年 ,但 对 它 的 知识 积累 的 快速 增加 却 是 在 最 近 几 
年 。 随 着 高 通 量 实 验 技术 的 推广 ,绘制 的 基因 组 范围 的 组 蛋白 修饰 图 谱 不 仅 增进 了 人 们 对 
组 蛋白 修饰 模式 的 认识 ,也 有 助 于 理解 组 蛋白 修饰 在 疾病 发 生 过 程 所 起 的 作用 。 

在 早期 的 染色 质 研 究 中 ,染色 质 被 描述 成 “一 串 线 上 的 珠子 " ,这 些 珠子 就 是 核 小 体 。 每 
个 核 小 体 由 八 个 核心 组 蛋白 (包括 H3, H4, H2A 和 H2B 各 两 个 ) 及 缠绕 在 八 聚 体 组 蛋白 表面 
的 DNA 序 列 构成 。 核 心 组 蛋白 通过 H1 组 重 白 相互 连接 (图 11-2 )。 
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图 11-2 组 有 蛋白 修饰 
来 源 于 : Zhang Y.HHMD: the human histone modification database.Nucleic Acids 
Res.2010; 38 : 149-154. 


TE TZ 2H 88 F1 RS AR mA 2H 88 EFE EA, 9) 58 AR RUE HE Tp, a di R A eA LII HAE 
化 , 赖 氨 酸 的 乙酰 化 ,丝氨酸 的 磷酸 化 ( 表 11-2 ), 组 蛋白 修饰 通过 降低 和 DNA 结 合 的 亲和力 ， 
还 通过 征调 更 多 的 染色 质 重 构 复 合 物 来 影响 核 小 体 组 装 成 更 高 维 的 包装 结构 。 这 些 修饰 的 
不 同 组 合 模式 内 存储 的 潜在 信息 形成 “组 重 白 密码 ”的 假说 ,它们 的 特定 组 合 组 合 表明 基因 
座 特定 的 转录 模式 。 

当 编 码 组 焦 白 修饰 基因 的 改变 和 组 蛋白 修饰 模式 的 闪 乱 与 疾病 的 发 生 有 密切 的 关系 . 
例如 ,多 硫 和 蛋白 EZH2 ,组 蛋白 H3 赖 氨 酸 37( H3K27 ) 甲 基 转 移 酶 在 前 列 腺 癌 中 过 表达 ,而 
H4K16 乙 酰 化 和 H4K20 三 甲 基 化 ( HAK20me3 ) 在 淋巴 癌 和 结肠 癌 中 观察 到 全 局 的 缺失 。 


表 11-2 高 通 量 实验 测定 的 组 蛋白 修饰 类 型 


组 蛋白 类 型 | 组 蛋白 修饰 

H2A H2AK5ac, H2AK9ac, H2AZ 

H2B H2BK120ac , H2BK12ac, H2BK20ac , H2BK5ac, H2BK5mel , UbH2B* 

H3 H3Kl4ac, H3K18ac, H3K23ac, H3K27ac, H3K27mel , H3K27me2, H3K27me3, H3K36ac, 


H3K36mel , H3K36me3, H3K4ac, H3K4mel , H3K4me2, H3K4me3, H3K79mel , H3K79me2, 
H3K79me3, H3K9ac, H3K9mel , H3K9me2, H3K9me3, H3R2mel , H3R2me2, H3ac* 


H4 H4K12ac, H4Kl6ac, H4K20mel, H4K20me3, H4K5ac, H4K8ac, H4K9lac, H4Kac, 
H4R3me2, H4ac* 


ik: * 没 有 使 用 特异 的 抗体 。 数 据 来 源 : Zhang Y.HHMD: the human histone modification database. 
Nucleic Acids Res.2010; 38 : 149-154. 


(二 ) 组 蛋白 修饰 的 高 通 量 谱 绘 制 


目前 测定 组 重 白 修饰 的 各 种 技术 均 依 赖 于 染色 质 免 疫 沉 泻 ( ChIP ) 技 术 。 这 项 技术 采 
用 特定 抗体 来 富 集 存在 组 集 白 修饰 或 者 转录 调控 的 DNA 片 段 , 通 过 多 种 下 游 检测 技术 (定量 
PCR , 心 片 ,测序 等 ) 来 检测 此 富 集 片段 的 DNA 序 列 , 已 经 广泛 用 于 多 个 领域 的 染色 质 相关 重 
日 的 研究 ( 如 组 焦 白 及 其 异 构 体 ,转录 因子 等 ), 特 别 适 用 于 已 知 启动 子 序 列 或 整个 基因 位 点 
的 组 集 日 修饰 分 析 人 研究 。 当 前 基于 ChIP 测 定 组 蛋白 修饰 的 实验 技术 主要 分 为 两 类 : ChIP 与 
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心 片 技 术 结 合 的 ChIP-chip 技 术 , ChIP 与 测序 技术 结合 的 ChIP-seq 技 术 。 

1. ChIP-chip 描绘 组 和 蛋白 修饰 

(1) ChIP-chip 原理 介绍 : REREH ILEA (ChIP-chip ) 的 基本 原理 是 在 特定 的 
实验 条 件 下 通过 甲醛 将 组 蛋白 和 DNA 交 联 , 并 利用 超声 波 将 其 打 碎 为 一 定 长 度 范围 内 的 染 
色 体 片段 (<lkbp ), 然 后 通过 组 和 蛋白 修饰 特异 性 抗体 沉淀 复合 物 片 段 ,从 而 特异 性 地 提取 组 
蛋白 修饰 修饰 结合 的 DNA 片 段 ,并 对 这 些 片 段 的 进行 纯化 ,最 后 利用 高 通 量 芯 片 技 术 对 片段 
进行 检测 ,从 而 获得 组 缠 日 修饰 与 DNA 相 互 作用 的 信息 

ChlP 与 基因 芯片 相 结合 建立 的 ChIP-chip 方 法 ( 图 11- 3A ) 已 广泛 用 于 特定 组 重 日 修饰 
的 高 通 量 筛 选 ,从 而 高 通 量 的 般 选 特定 组 香 白 修饰 的 靶 回 基因 组 DNA 序 列 。 之 前 的 研究 表 
明 组 重 白 修饰 与 基因 组 DNA 结 合 能 够 调控 染色 质 重 塑 和 基因 转录 ,因此 对 基因 组 范围 组 蛋 
白 修 饰 分 布 的 研究 能 够 揭示 疾病 等 过 程 中 的 表 观 遗传 调控 机 制 。 
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图 11-3 ”ChIP 一 chip 和 ChIP 一 seq 方 法 示意 图 
A.ChIP—chipax A itt f£; B. ChIP—seqax A iff FE 
来 源 于 : Schones DE.Genome-Wide approaches to studying Chromatin 
modifications,Nat Rev Genet. 2008; 9( 3): 179-191. 
目前 已 经 有 研究 者 将 该 技术 应 用 于 测定 疾病 和 的 差异 组 集 日 修饰 模式 ,发 
现 组 集 白 修饰 介 导 疾病 中 的 表 观 遗传 调控 的 异常 。 染 色 质 免疫 共 沉 泻 技 术 与 心 片 技术 相 结 
合 有 助 于 科学 家 发 明 疾 病 的 有 效 治疗 方法 。 
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( 2) ChIP-chip 技 术 测 定 组 蛋白 修饰 : ChIP-chip 技 术 在 测定 组 蛋白 修饰 方面 具有 几 个 优 
点 : (岂可 以 在 细胞 内 进行 组 蛋白 和 DNA 的 交 联 反应 ; @) 能 够 得 到 各 种 特定 待 检 细胞 中 组 和 蛋 
日 修 饰 与 DNA 的 结合 位 置信 息 ; @) 特 定 的 组 蛋白 修饰 抗体 特异 性 地 靶 向 待 检修 饰 的 相关 位 
点 ; (9 能 够 进行 全 基因 组 范围 组 蛋白 修饰 的 测定 。 

总 之 , ChIP-chip 技 术 的 发 展 为 分 析 各 种 疾病 状态 及 其 对 照 组 织 中 DNA 与 组 蛋白 修饰 的 
相互 关系 提供 了 一 个 极为 有 力 的 工具 。 除 了 在 测定 组 和 蛋白 修饰 方面 的 应 用 外 , ChIP-chip 在 
研究 转录 因子 调控 基因 表达 增强 子 和 隔离 子 等 十 端 调控 原件 的 测定 以 及 染色 体重 逆 中 的 
应 用 也 十 分 广泛 。 

(3 )ChIP-chip 拉 术 在 组 蛋 晶 修饰 检测 的 应 用 : 加 州 大 学 路 德 维 格 癌症 研究 所 ( ludwig 
institute for cancer research, LICR ) 的 研究 者 利用 ChIP-chip 技 术 对 人 类 细胞 的 物种 核心 的 组 
蛋白 修饰 模式 进行 了 测定 ,这 五 种 修饰 包括 : H3ac, H4ac, H3K4mel , H3K4me2, H3K4me3, 
发 现 了 人 类 基因 组 中 重要 的 功能 性 元 件 。 人 类 基因 组 是 包 庄 在 染色 质 当 中 的 ,确切 地 说 是 
由 组 和 蛋白 包 右 DNA。 针 对 全 基因 组 序列 ,研究 者 分 析 了 人 类 细胞 的 五 种 修饰 与 局 动 子 和 增 
强 子 的 关系 ,发 现 已 知 的 启动 子 、 增 强 子 附近 被 特有 的 组 蛋白 修饰 标记 ,如 H3K4mel 和 人 类 
增强 子 相 关 。 

根据 这 些 特征 ,人 研究 者 开发 了 算法 ,识别 出 了 几 百 个 新 的 潜在 增强 子 , 这 些 都 可 能 是 具 
有 潜在 调控 功能 的 基因 组 区 域 。 该 研究 负责 人 Ren 表 示 : 这 种 方法 的 理论 具有 普遍 性 ,而 且 
可 以 运用 这 套 相 对 公正 的 方法 探索 基因 表达 在 患 病 情况 下 是 如 何 变 化 的 分 子 机 制 ; 这 个 方 
法 的 魅力 所 在 是 它 依 赖 于 组 蛋白 的 化 学 特征 ,而 不 是 DNA 的 ; 对 于 组 蛋白 修饰 特征 的 解析 将 
让 科学 家 快速 识别 出 基因 的 增强 子 和 启动 子 , 在 此 基础 上 可 以 进一步 方便 快捷 地 识别 调控 
基因 表达 的 因子 ; 这 种 方法 还 可 以 用 来 识别 在 癌症 发 生 过 程 中 基因 网 络 异常 的 发 生 , 这 将 推 
动 癌症 检测 技术 的 开发 。 

2. ChIP-seq 检测 组 蛋白 修饰 

(1)ChIP-seq 的 原理 介绍 及 检测 组 重 昌 修饰: 染色 质 免 疫 共 沉淀 -测序 (chromatin 
immunoprecipitation sequencing, ChIP-seq ) 为 一 种 测定 组 集 日 修饰 的 高 通 量 技术 ,与 ChIP-chip 
不 同 的 是 , ChIP-seq 通 过 对 使 用 免疫 共 沉 淀 ( ChIP ) 后 对 产生 的 DNA 片 段 进行 测序 来 获取 组 
重 晶 修饰 与 DNA 序 列 的 结合 关系 。 同 样 地 ,组 蛋白 修饰 特异 的 抗体 对 ChIP-seq 的 成 功 至 关 
重要 (图 11-3B )。 由 于 实验 技术 的 不 同 , ChIP-seq 的 分 析 与 ChIP-chip 也 有 一 定 的 差别 。 

ChIP-seq 的 第 一 步 分 析 是 将 测序 的 DNA 片 段 匹 配 到 参考 基因 组 上 ,目前 已 经 有 许多 有 
效 的 生物 信息 算法 用 于 短 读物 匹配 。 在 读物 匹配 到 参考 基因 组 后 ,下 一 步 的 分 析 则 是 试图 
探测 组 蛋白 修饰 高 度 富 集 的 基因 组 位 置 ,这 个 过 程 被 称 作 峰 值 探测 ( peak calling )。 

目前 广泛 应 用 的 有 两 种 峰值 探测 方法 。 其 中 一 个 是 基于 固定 长 度 窗 口 的 方法 ,该 
方法 使 用 一 个 从 随即 读 取 片段 位 置 得 到 的 经 验 背 景 模 型 用 于 估计 显著 性 。 然 而 ,组 蛋白 
修饰 的 区 域 的 跨度 比较 大 ,有 时 是 几 百 个 碱 基 ,而 有 时 则 跨越 上 千 碱 基 , 如 抑制 性 的 标记 
( H3K27me3 和 H3K9me3 ) 发 生 在 较 长 的 基因 组 区 域 中 ,这 样 固 定 长 度 的 窗口 法 不 适用 于 探 
测 区 间 可 变 的 峰值 区 域 。 

男 一 种 方法 则 基于 隐 马 尔 科 夫 模型 ,可 得 到 可 变 长 度 的 窗口 ,提高 了 峰值 探测 的 精度 。 
基于 组 蛋白 修饰 在 特定 细胞 系 中 峰值 的 分 布 , 人 们 可 以 研究 组 蛋白 修饰 与 各 种 基因 组 调控 
原件 的 位 置 关系 ,从 而 揭示 组 蛋白 修饰 在 转录 调控 中 的 作用 。 
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( 2) ChIP-seq 的 应 用 : Zhao 等 人 利用 ChIP-seq 构 建 人 类 CD4 细 胞 中 39 种 组 蛋白 修饰 内 的 
全 基因 组 范围 图 谱 , 通 过 对 这 些 组 蛋白 修饰 及 其 调控 原件 如 启动 子 ,隔离 子 ,增强 子 和 转录 
区 域 的 分 析 发 现 几 个 重要 的 结论 : H3K27, H3K9, H4K20, H3K79 和 H2BK5 的 单 甲 基 化 都 与 
基因 活化 有 关 ; H3K79 单 甲 基 化 与 基因 抑制 有 关 ; CTCF 标 示 组 蛋白 甲 基 化 区 域 的 边界 ; 染色 
体 带 型 与 特定 的 组 重 白 修饰 相关 ; T 细 胞 相关 的 癌症 中 的 染色 体 断 列 位 点 与 H3K4 相 关 的 染 
色 体 区 域 有 关 ; 组 蛋白 乙酰 化 是 一 种 关键 的 翻译 后 修饰 模式 ,对 组 蛋白 及 其 他 蛋白 的 修饰 
部 具有 重要 的 作用 ,主要 对 转录 的 调节 具有 重要 的 意义 。 该 研究 的 负责 人 表示 : HDACs 不 
仅仅 具有 抑制 转录 的 功能 还 能 修饰 染色 质 中 的 活性 基因 ; 失 活 的 基因 首先 通过 与 MLL 介 导 
的 H3K4 甲 基 化 作用 ,随后 接受 HATHDAC 的 动态 乙酰 化 和 去 乙酰 化 的 作用 ,在 阻止 基因 与 
Pol 开 结合 而 抑制 基因 表达 的 同时 ,可 以 使 这 些 基因 保 持 能 够 被 激活 的 状态 ; 一 旦 编码 HATs 
和 HDACs 的 基因 发 生 突变 ,将 导致 多 种 疾病 的 发 生 ,包括 癌症 。 

3. ChIP-chip 和 ChIP-seq 技 术 的 比较 ”尽管 ChIP-chip 和 ChIP-seq 两 种 测定 组 蛋白 修饰 
的 技术 都 基于 染色 质 人 免疫 共 沉 泻 ,然而 ,由 于 二 者 采用 的 后 续 测定 技术 的 不 同 , 它 们 在 分 辨 
率 、 定 量 性 、 覆 盖 范 围 以 及 实验 费用 方面 的 差异 较 大 ( 表 11-3 )。 


X11-3 ChIP-chip 和 ChIP-Seq 的 比较 








检测 技术 ChIP-chip ChlP-Seq _ 
分 辨 率 | 30~100bp lbp 
分 辩 率 的 影响 因素 探 针 密度 测序 深度 
定量 性 受 杂 交 效 率 影响 定量 
动态 量程 弱 信 号 会 被 丢弃 ; 强 信 号 会 饱和 无 限制 
覆盖 范围 受 芯 片 容量 限制 ,局 限于 预 设 的 基因 组 区 域 “可 覆盖 大 部 分 基因 组 区 域 
全 基因 组 范围 实验 费用 多 少 
需要 的 DNA 量 高 低 
缺点 探 针 和 非特 异性 区 域 杂 交 测序 数据 受 GC 含 量 的 影响 


由 于 心 片 技术 中 探 针 密度 以 及 染色 质 长 度 的 限制 , ChIP-chip 目 前 的 分 辩 率 仅 为 
30~100bp, 这样 ChIP-chip 测 定 的 组 重 昌 修饰 数据 仅 能 反映 较 长 区 域 的 组 蛋白 修饰 状态 ; 而 
基于 测序 技术 的 ChIP-Seq 则 不 依赖 于 芯片 的 限制 , 仅 依 赖 于 测序 的 深度 ,只 要 测序 深度 达到 
一 定 的 量 ,就 能 够 测定 任何 有 组 和 蛋白 修饰 靶 定 的 基因 组 区 域 ,因此 ChIP-Seq 的 最 高 精度 可 以 
达到 1bp, 这 可 能 也 是 目前 ChIP-seq 逐 渐 代 替 ChIP-chip 成 为 主要 的 组 蛋白 修饰 测定 技术 的 主 
要 原因 之 一 。 

除了 在 分 辩 率 方面 的 差异 , ChIP-chip 和 ChIP-seq 另 一 个 主要 的 差别 在 二 者 对 组 蛋白 修 
饰 进行 定量 性 , ChIP-chip 的 定量 性 受到 芯片 技术 过 程 中 杂交 效率 的 影响 , 且 还 可 能 发 生 弱 

言 号 被 丢弃 而 强 信号 过 饱和 的 潜在 错误 ,而 基于 测序 技术 的 ChIP-seq 则 能 够 对 基因 组 区 域 
中 的 组 蛋白 修饰 进行 精确 的 定量 。 

再 者 ,就 两 种 技术 的 覆盖 范围 而 言 , ChIP-chip 受 到 芯片 容量 的 限制 , 仅 能 测定 预 设 的 基 

因 组 区 域 ,而 ChIP-seq 则 可 以 覆盖 绝 大 部 分 的 基因 组 区 域 ,因此 在 进行 全 基因 组 范围 组 蛋白 
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修饰 测定 时 ,ChIP-seq 技 术 所 需 的 样品 量 更 少 , 且 相 对 成 本 较 低 ,这 也 是 目前 ChIP-seq 逐 渐 
代替 ChIP-chip 成 为 主要 的 组 入 日 修饰 测定 技术 的 为 一 个 主要 原因 。 

尽管 目前 人 们 普遍 使 用 二 者 测定 基因 组 范围 的 组 焦 晶 修饰 ,然而 二 者 者 存在 潜在 的 菏 
些 缺 点 ,如 ChIP-chip 可 能 发 生 探 针 与 非特 异性 区 域 的 杂交 , 而 ChIP-seq 的 测序 数据 则 受到 
GCC 含 量 的 影响 ,新 的 更 高 效 的 更 精确 的 组 恒 白 修饰 测定 技术 对 基因 组 范围 的 表 观 遗传 修饰 
调控 机 制 的 研究 是 必要 的 。 


三 、 基 因 组 印记 与 人 类 疾病 2) 


基因 组 印记 是 指 从 父 本 或 母 本 遗传 得 到 的 等 位 基因 间 存 在 表达 上 差异 的 一 种 现象 。 印 
记 基 因 通 常 表现 为 单 等 位 基因 的 转录 沉默 , 男 一 个 等 位 基因 正常 表达 ,并 且 具 有 组 织 特异 
性 。 基 因 组 印记 的 失调 会 导致 复杂 的 病理 现象 ,研究 发 现 印记 基因 与 多 种 疾病 的 发 生 有 天 
系 , 如 癌症 .生长 和 代谢 失调 .神经 发 育 和 认 知 行为 失调 等 疾病 。 与 疾病 相关 的 印记 基因 的 
功能 失调 可 以 从 印记 起 源 的 角度 上 被 理 解 为 是 对 进化 压力 的 反映 。 印 记 基 因 的 表达 暗示 了 
基因 组 内 进化 矛盾 的 结果 ,使 得 从 双亲 遗传 获得 的 等 位 基因 为 了 适应 进化 选择 表现 出 等 位 
基因 的 差异 表达 。 

基因 组 印记 的 突变 与 一 些 复杂 疾病 有 着 密切 的 关系 ,如 安琪儿 综合 征 ( Angelman 
syndrome ), 1f Sig ( m SK GP fü Prader-Willi syndrome ), Ul - ji — Fe £x 合 征 ( Beckwith- 
Wiedmann syndrome )。 基 因 种 系 发 育 过 程 中 印记 探 除 和 获得 的 失调 是 引起 这 些 综合 征 的 主 
要 原因 。 为 外 ,人 研究 显示 1GF2 缺 失 可 导致 上 及 干细胞 的 数目 增加 而 多 患 结肠 净 。 正 因为 显 
示 单 亲本 孕 体 发 育 失 败 ,很 多 印记 基因 在 胎盘 和 胚胎 中 参与 细胞 分 化 和 生长 调控 ,也 在 神经 
过 程 和 行为 中 起 关键 作用 。 因 此 ,印记 基因 表达 受到 干扰 将 引起 几 种 重要 的 生长 行为 综合 
征 以 及 瘤 症 。 

目前 人 类 和 小 鼠 基 因 组 的 印记 基因 的 准确 数目 和 印记 的 范围 还 不 是 很 明确 。 据 佑 计 它 
们 的 真实 数目 在 100~2100 左 右 。 尽 管 这 方面 的 研究 在 过 去 25 年 取得 了 巨大 的 进展 ,然而 ,起 
作用 的 印记 的 生物 学 功能 图 谱 还 没有 完成 ,因此 准确 识别 全 部 哺乳 动物 基因 组 印记 基因 是 
很 必要 的 。 


(一 ) 印记 基因 的 主要 特征 


印记 基因 分 布 在 整个 基因 组 。 尽 管 有 些 是 独立 的 有 些 成 对 存在 ,大 部 分 在 基因 组 上 呈 
现成 族 出 现 的 现象 ,而 且 在 人 类 和 小 鼠 中 保持 结构 保守 。 这 些 印 记 区 域 包含 父 本 或 母 本 都 
表达 的 基因 ( 即 非 印 记 基 因 ) 在 多 数 情况 下 至 少 包 含 一 个 非 编 码 RNA。 这 些 等 位 特异 表达 的 
印记 基因 (更 广泛 的 可 能 是 印记 位 点 ) 受 表 观 遗传 修饰 调控 ,其 中 DNA 甲 基 化 是 主要 因素 。 

饶 究 发 现 ,离散 的 协同 印记 的 单 等 位 表达 的 顺 式 作 用 区 域 即 印记 控制 区 ( imprinting 
control region, ICR ) 全 部 是 发 生 差异 甲 基 化 的 区 域 ( differentially methylated region, DMR ), 包 
括 等 位 的 遗传 目 父 本 和 母 本 的 DNA 甲 基 化 (被 认为 是 种 系 的 DMR )。 在 ICRs 种 系 的 DNA 甲 基 
化 的 获取 需要 DNA 甲 基 转 移 酶 3A( DNMT3A ) 和 DNA 甲 基 转 移 酶 3 Like( DNMT3L ) 共 同 作用 。 
一 旦 获得 , DNA 甲 基 化 印记 将 在 整个 发 育 和 成 体 所 有 体 细 胞 谱系 中 维持 。 这 些 印 记 标 记 以 
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不 同方 式 读 出 ,确保 适当 的 亲本 等 位 特异 表达 。 
(二 ) 印记 基因 的 识别 


1. 基于 基因 表达 分 析 发 现 印记 基因 ”研究 发 现 亲 本 等 位 基因 不 平衡 表达 适用 于 识别 印 
记 的 位 点 。 然 而 ,设计 这 样 表达 需要 满足 几 个 重要 的 条 件 : 山 理想 的 cDNA 资源 需要 区 分 父 
本 和 母 本 的 等 位 基因 ; CeDNA 资 源 应 该 代表 蛋白质 编 码 和 非 编码 的 基因 ( 非 编码 RNAs ) 因 
为 两 者 的 表达 都 能 被 印记 调控 ; (3 有 的 基因 只 在 特定 的 组 织 和 发 育 阶段 印记 ; 外 确定 这 些 
基因 需要 区 别 它们 与 基因 显示 随机 单 等 位 表达 。 

第 一 次 成 功 表 达 扫 描 是 使 用 小 鼠 单 亲本 cDNA 有 上 胚胎 或 胚胎 成 纤维 细胞 基于 消减 杂交 和 
差异 显示 技术 实施 。 随 看 高 通 量 忌 片 技术 的 发 展 可 以 同时 扫描 几 千 个 基因 的 表达 。 尤其 是 ， 
一 个 大 规模 的 芯片 由 全 9.5dpc 单 亲本 小 鼠 胚 胎 的 27 663 个 full-length 个 小 鼠 cDNA 通 过 比较 基 
因 表达 水 平 用 于 识别 印记 基因 。 分 析 识 别 出 多 于 2100 个 印记 候选 转录 本 (分 别 1403 母 本 表 
达 和 698 父 本 表达 ,包括 56 个 非 编 码 RNA ). 

在 一 个 最 近 的 人 研究 中 ,9.5dpc 母 本 和 控制 胚胎 的 基因 表达 水 平 用 Affymetrix GeneChip 探 
针 必 片 比较 ,包含 多 于 45 000 个 基因 和 ESTs。 只 有 39 个 候选 转录 本 (包括 18 个 已 识别 的 印 
记 ), 识 别 为 父 本 表达 。 然 而 ,这 些 结果 进行 实验 验证 时 ,只 有 很 少 的 候选 转录 本 被 证 实 印 记 
而 大 多 数 显 示 非 印记 。 

小 鼠 的 种 系 带 有 特定 的 单亲 二 倍 体 (UPD ) 或 者 重复 的 印记 染色 质 区 域 可 以 至 少 部 分 
的 克服 这 些 缺 陷 。 例 如 , Schulz 等 人 利用 UPD 小 鼠 不 同 组 织 的 cDNA 芯片 实验 成 功 的 识别 了 
三 个 胎盘 中 母 本 表达 的 新 的 基因 ,新 的 4 个 大 脑 组 织 特异 的 父 本 表达 转录 本 。 

然而 ,基于 UPD 小 鼠 心 片 扫 描 的 局 限 性 也 是 显而易见 的 。 事实 上 ,在 所 有 的 单亲 本 胚胎 
中 ,在 这 些 胚胎 中 观察 到 印记 的 缺陷 可 能 干扰 非 印记 基因 的 表达 ,产生 假 阳 性 的 印记 基因 。 

另 一 种 方法 是 使 用 有 意义 的 SNP 变 体 使 得 不 但 能 建立 给 定 基因 的 亲本 起 源 的 表达 ,也 
能 扫描 生理 正常 的 “material" 。 这 些 可 以 通过 小 鼠 不 同 株 系 的 相互 杂交 实现 。 在 人 类 中 ， 
为 了 破解 复杂 疾病 的 起 源 ,国际 HapMAp 协 会 建立 了 单 体 型 图 谱 数 据 库 ( http: //hapmap.ncbi. 
nlm.nih.gov/ ) 和 千 人 基因 组 计划 ( http: //browser.1000genomes.org/index.html )。 已 识别 的 人 类 
的 SNP 在 dsSNP 数 据 库 ( http: //www.ncbi.nlm.nih.gov/projects/SNP/ ), 可 以 用 于 转录 水 平 来 确定 
特定 基因 或 一 组 基因 的 等 位 基因 的 表达 。 几 个 人 研究 用 SNP 特 异 忌 片 的 方法 研究 人 类 组 织 和 
细胞 系 等 位 特异 的 基因 表达 。 昌 然 不 一 定 致 力 于 新 印记 基因 的 预测 ,这 些 人 研究 确定 了 几 个 
已 知 印记 基因 的 差异 的 等 位 表达 和 几 个 高 置信 和 度 的 新 的 印记 转录 本 。 

为 了 识别 新 的 印记 基因 , Pollard 等 人 设计 一 个 方法 允许 从 随机 单 等 位 表达 的 基因 中 分 
别 出 真 实 的 候选 印记 基因 。 在 这 项 人 研究 中 ,等 位 表达 人 研究 是 通过 来 自 67 个 不 相关 个 体 的 SNP 
特异 必 片 。 在 这 些 基因 中 ,显示 差异 等 位 表达 的 ,真正 的 候选 印记 基因 通过 SNP 相 关 等 位 相 
对 于 不 同 杂 合子 个 体 其 他 等 位 过 度 或 不 足 等 位 表达 来 识别 。 因 此 ,分 析 2625 个 人 类 基因 确 
定 了 61 个 候选 印记 基因 。 其 中 15 个 实验 验证 印记 ,7 个 显示 强 的 证 据 , 但 没有 证 实 被 印记 。 

由 于 此 实验 只 覆 产 了 人 类 编码 基因 大 约 10%( 不 包含 非 编 码 基 因 ), 估 计 在 淋巴 细胞 没 
有 多 于 几 百 个 印记 基因 。 尺 省 接 下 来 的 芯片 将 提供 更 广泛 的 覆盖 率 ,这 种 方法 也 有 很 大 的 
局 限 性 。 分 析 是 定制 选择 的 ,限定 一 定 的 基因 组 区 和 他 们 需要 已 知 的 SNP 位 置 和 转录 序列 。 
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此 外 ,芯片 分 析 不 能 提供 一 个 已 知 基 因 在 两 个 等 位 基因 的 可 靠 地 定量 的 表达 比率 ,因此 不 便 
于 识别 显示 一 个 等 位 亲本 表达 仿 差 的 印记 基因 。 | 
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析 的 方法 。 尤 其 是 致力 于 识别 新 的 印记 基因 的 RNA 测 序 ( RNA-seq ) 方法 。 因为 当 应 用 于 
多 肽 cDNA 资 源 时 可 以 定量 检测 整个 转录 本 的 等 位 偏差 。Wang 等 通过 对 不 同 株 系 反 交 的 新 
生 小 鼠 大 脑 样本 的 转录 本 进行 测序 ,识别 的 26 个 印记 基因 中 有 3 个 被 确认 是 印记 的 。Babak 
等 用 一 个 简单 的 方法 建立 了 小 鼠 胚 胎 9.5dpc 的 印记 基因 的 图 谱 。 

除了 转录 本 分 析 , 单 等 位 基因 表达 评估 可 以 通过 研究 等 位 特异 的 转录 结合 因子 。 在 一 
个 新 颖 的 方法 中 , Maynard 等 调查 人 类 肺 成 纤维 细胞 的 RNA 聚 合 酶 [的 等 位 特异 结合 位 点 。 
他 们 设计 ChIP-SNP 方 法 ,其 中 用 SNP 分 析 忌 片 来 分 析 沉 淀 抗 RNA 聚 合 酶 抗体 的 区 域 。 通 过 
这 种 方法 ,识别 了 已 知 的 印记 基因 ,包括 microRNA 簇 邻近 的 MEG3 等 。 

2. 基于 差异 甲 基 化 的 研究 ” 甲 基 化 胞 喀 啶 的 全 基因 组 图 谱 通过 无 偏 的 方法 系统 的 识 
别 DMRs 获 得 。 特 别 有 趣 的 是 最 近 发 现 的 BS-sed 方 法 能 应 用 到 复杂 的 人 类 和 小 鼠 的 基因 组 。 
进一步 将 此 方法 结合 SNP 数 据 应 用 于 有 效 的 识别 新 的 候选 的 DMRs 相 关 的 印记 位 点 。 

另外 ,基因 组 范围 DNA 甲 基 化 谱 可 以 用 于 比较 正常 基因 组 和 那些 已 知 存在 甲 基 化 印记 
缺陷 的 基因 组 。 这 一 方法 最 近 成 功 的 应 用 于 分 析 一 个 患者 血液 样本 多 个 印记 缺陷 和 正常 控 
制 基因 组 CpG 甲 基 化 。 接 下 来 的 亚 硫 酸 盐 处 理 , DNA 杂 交 到 用 于 分 析 多 于 14 000 多 个 基因 的 
CpGC 甲 基 化 心 片 。 除 了 确定 这 些 患 者 在 已 知 印记 DMRs 的 低 甲 基 化 ,这 一 研究 还 可 以 确定 新 
的 候选 DMRs。 和 这 些 区 域 相关 的 RB1 显 示 在 人 类 基因 组 中 发 生 印 记 。 

3. 基于 染色 质 特 征 扫描 种 未 来 时 代 的 方法 ” 几 种 定位 特异 研究 组 蛋白 修饰 ,其 
中 进一步 被 全 基因 组 分 析 支 持 ,揭示 了 一 种 ICR 特 异 的 染色 质 信和 号 的 存在 。 尤 其 是 , DNA 甲 
基 化 的 等 位 基因 与 被 定义 为 抑 染 色 质 的 组 和 蛋白 标记 一 致 相关 (如 H3K9me3 和 H4K20me3 )。 
相反 的 , 非 甲 基 化 的 等 位 基因 被 组 蛋白 修饰 H3K4me2/me3 标 记 , 是 典型 的 活性 染色 质 。 应 用 
认 了 和 小 鼠 细胞 系 的 全 基因 组 Chip-seq 得 到 的 组 蛋白 标记 图 谱 , 用 机 融 学 习 的 方法 可 以 应 
用 这 些 数据 系统 的 识别 这 些 特异 染色 质 信号 的 区 域 特征 。 此 外 ,ChIP-seq 识 别 的 染色 质 特 
征 会 以 等 位 特异 的 模式 被 谈 出 ,用 SNPs 人 允许 分 配 每 个 染色 质 修饰 到 特定 的 亲本 等 位 ,因此 用 
于 识别 新 的 候选 TCRs。 

除了 识别 假定 的 ICRs, 全 基因 组 的 染色 质 信号 也 可 用 于 识别 等 位 转录 的 区 域 。 研 究 
显示 ChIP-seq 结 合 等 位 差异 的 SNP 信 息 , 观察 到 H3K36me3 等 位 不 平衡 ,在 一 些 印 记 位 点 和 
microRNAs 标 记 与 转录 延伸 相关 。 

通过 获得 不 同 表 观 特征 谱 交 叉 信 息 可 以 进一步 改进 这 些 方法 。 使 用 包括 几 个 小 鼠 印 记 
染色 质 区 域 的 定制 芯片 , Dindot 等 人 发 现 已 知 的 ICRs 是 有 特异 的 DNA 甲 基 化 谱 与 H3K9me3 
和 H3K4me3 重 羡 。 通 过 这 一 方法 他 们 识别 了 11 个 新 的 印迹 控制 区 。 通 过 使 用 一 个 简单 的 方 
法 , Wen 等 人 提出 可 以 用 H3K4me2, DNA 甲 基 化 和 CTCF 结 合 位 点 识别 人 类 T 细 胞 和 永生 淋巴 
细胞 系 的 印记 区 域 。 

4. 通过 DNA 序 列 特征 预测 印记 基因 已 经 识别 的 大 量 的 印记 基因 为 计算 方法 识别 候选 
印记 基因 提供 了 条 件 。 计 算 方 法 是 基于 识别 的 印记 基因 共有 的 特定 的 序列 特征 。 尤 其 是 ， 
人 类 印记 区 域 相 对 于 非 印记 位 点 显著 缺少 SINEs。 | 

第 一 次 大 规模 基于 DNA 序 列 特征 预测 印记 基因 的 是 Luedi 等 人 比较 分 析 了 44 个 已 
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知 印记 基因 和 5$30 个 状态 没有 经 实验 验证 的 基因 (假定 非 印 记 基 因 )。 分 析 包 括 几 种 重 
复元 件 家 族 的 分 布 ,转录 因子 结合 位 点 和 CpG 岛 。 其 中 显著 的 特征 ,作者 证 实 低 密度 的 
SINEs 是 印记 区 域 一 个 显著 的 特征 ,并 且 相 对 于 印记 基因 的 方向 有 很 高 的 区 分 价值 。 此 
外 ,内 含 子 中 的 逆 源 性 病毒 和 LINEs Lls 也 是 预测 印记 状态 的 重要 因子 。 随 后 ,这 些 
显著 预测 特征 被 用 于 训练 分 类 器 用 于 预测 基因 的 印记 和 非 印 记 状 态 以 及 印记 的 表达 

应 用 分 类 需 分 析 全 部 23 788 个 注释 的 常 染色体 基因 结果 识别 600( 2.5% ) 个 候选 印记 基 
因 ,384( 6496 ) 个 预测 为 母 本 表达 。 相 似 的 ,将 分 类 器 用 于 人 类 ,预测 出 20 770 个 基因 中 的 
156 个 ,88 个 为 母 本 表达 。 基 因 组 中 预测 的 小 鼠 和 人 类 印记 基因 比率 的 差异 可 以 通过 更 严格 
的 方法 来 解释 ,但 可 能 也 是 事实 上 人 类 基因 组 就 是 比 小 鼠 有 更 少 的 印记 基因 。 此 外 ,两 种 物 
种 的 基因 组 预测 的 印记 基因 的 数目 都 只 限定 在 和 蛋白质 编 码 基因 。 

最 后 ,人 类 基因 组 中 156 个 候选 基因 ,只 有 DZLG4P2 和 KCNMK9 ,被 实验 证 实 为 印记 基因 , 
并 预测 为 父 本 等 位 基因 表达 。 有 趣 的 是 , KCMK9 ,在 之 前 对 小 鼠 研究 中 显示 大 脑 中 母 本 印 
记 特 异 表 达 。Luedi 等 预测 的 600 个 基因 中 的 16 个 可 能 的 候选 印记 基因 被 用 E11.5 小 鼠 胚 胎 实 
验 检验 。 除 了 KCNK9, 其 他 15 个 基因 在 这 个 发 育 阶段 没有 显示 印记 特异 表达 。 

. 5. 基于 表 观 遗传 特征 预测 ”扫描 检测 表 观 标记 (如 DNA 甲 基 化 和 组 蛋白 修饰 ) 在 给 定 
基因 父 本 和 母 本 的 差异 。 也 提供 相应 的 策略 识别 新 的 印记 位 点 。 已 知 在 ICRsS 有 等 位 表 观 遗 
传 差异 ,印记 调控 的 关键 区 域 。 

ICRs 是 由 DNA 甲 基 化 在 父 本 或 母 本 一 方 种 系 标记 获得 的 (构成 种 系 DMR )。 除 了 DNA 甲 
HAL, ICRs 在 一 些 体 细胞 中 也 有 差异 的 组 蛋白 修饰 标记 。 扫 描 识别 种 系 DMRs/ICRS 的 主要 
优势 集中 在 他 们 可 以 在 所 有 的 细胞 类 型 中 执行 ,因为 无 论 印记 基因 的 的 表达 水 平 如 何 , 它 们 
的 表 观 遗传 标记 才 盖 在 发 育 相 关 和 成 体 细胞 。 男 一 方面 , ICRs 作 为 离散 的 元 件 通常 控制 成 
百 上 千 个 碱 基 最 多 十 个 基因 的 整个 印记 族 。 

因此 ,这 种 扫描 更 倾向 于 识别 几 个 印记 基因 的 染色 质 区 域 而 不 是 单个 的 印记 基因 。 随 
之 而 来 识别 启动 子 区 域 的 组 织 差异 甲 基 化 区 域 (T-DMRs ) 更 容易 显示 单个 的 印记 基因 。 

正如 在 转录 组 分 析 一 样 , 过 去 几 年 经 历 了 巨大 的 技术 变革 ,有 利于 以 一 种 无 偏 的 方式 
显示 全 基因 组 的 表 观 遗传 特征 。 甲 基 化 的 DNA 由 抗 一 5mC 抗 体 沉淀 ( MeDIP assay ) 或 者 甲 
基 -CpG 结 合 和 蛋白 ( MIRA assay ) 能 进一步 通过 必 片 杂交 或 深度 测序 方法 分 析 。 

另 一 个 有 意义 的 方法 是 重 亚 硫酸 盐 测序 ( BS-seq ), 其 中 甲 基 化 依赖 重 亚 硫 酸 盐 保守 
DNA( 甲 基 非 甲 基 胞 喀 啶 差异 ) 结 合 高 通 量 测序 全 基因 组 单个 碱 基 定 量 的 图 谐 。 相 似 的 ,全 
基因 组 的 组 蛋白 修饰 图 谱 通 过 特定 的 染色 质 免 疫 和 骨 入 探 针 芯片 ( ChIP-chip ) 或 深度 测序 
( ChIP-seq ) 获得 。 





四 、 常 用 的 疾病 表 观 遗传 学 数据 库 》》》 


随 着 高 通 量 实验 技术 的 不 断 推出 及 改进 使 表 观 基因 组 水 平 的 数据 与 日 俱 增 , 人 研究 人 员 
测定 了 各 种 疾病 状态 下 的 基因 组 范围 的 表 观 遗传 学 修饰 的 图 谱 , 如 何 存储 如 此 众多 且 重 要 
的 数据 并 从 中 提取 重要 的 信息 成 为 表 观 遗传 学 研究 的 瓶颈 ,为 了 解决 这 些 难 题 ,研究 结合 生 
物 信息 学 技术 ,构建 了 专门 的 疾病 表 观 遗传 数据 库 用 于 存储 疾病 相关 的 表 观 遗传 学 实验 测 
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定 的 数据 ,并 在 数据 库 中 开发 了 相应 的 功能 分 析 模 块 以 供 科 研 人 员 进 一 步 分 析 数 据 中 的 重 
要 信息 。 

疾病 表 观 遗传 学 数据 库 的 构建 和 应 用 促进 了 表 观 遗传 学 的 快速 发 展 , 有 利于 相关 数据 
的 重复 利用 。 疾 病 表 观 遗 传 学 数据 库 主要 是 用 来 存储 疾病 及 其 正常 对 照 中 的 各 种 表 观 遗传 
学 修饰 (如 DNA 甲 基 化 .组 蛋白 修饰 等 ) 的 数据 ,例如 ,人 类 疾病 甲 基 化 数据 库 DiseaseMeth、 
人 类 DNA 甲 基 化 与 癌症 数据 库 MethyCancer 、 人 类 组 重 日 修饰 数据 库 HHMD。 下 面 将 简单 介 
绍 这 两 个 典型 的 疾病 表 观 遗传 学 数据 库 的 网 站 及 其 使 用 。 

(一 ) 人 类 疾病 甲 基 化 数据 库 (DiseaseMeth ) 

人 类 疾病 和 DNA 甲 基 化 的 改变 密切 相关 。 人 类 疾病 甲 基 化 数据 库 ( DiseaseMeth ) 是 人 
类 甲 基 化 数据 库 中 迄今 为 止 收录 各 类 实验 测定 的 人 类 基因 甲 基 化 数据 最 为 全 面 的 数据 库 ， 


该 数据 库 旨 在 存在 人 类 各 种 组 织 .细胞 系 在 疾病 等 状态 下 的 高 通 量 和 小 规模 实验 的 甲 基 化 
数据 (图 11-4 )。 
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图 11-4 人 类 疾病 甲 基 化 数据 库 (DiseaseMeth ) 首页 


当前 数据 库 收录 72 种 疾病 的 超过 14 000 个 条 目的 数据 。 该 数据 库 提供 在 线 查 询 、 下 
载 . 分 析 和 可 视 化 等 基本 工具 。 可 通过 疾病 类 型 .染色体 位置 .基因 细胞 类 型 ,实验 技术 等 
多 种 选项 联合 筛选 ,进而 进行 基因 中 心 的 甲 基 化 分 析 。 分 析 结 果 链 接 了 可 视 化 界面 ,提供 
了 方便 使 用 的 基因 组 角度 的 视图 。 结 果 页 面 还 链接 到 多 个 数据 库 , 如 HHMD、GeneCards、 
MethyCancer 等 。 该 数据 库 还 内 建 了 分 析 基 因 和 疾病 之 间 关 系 的 分 析 工 具 , 可 方便 地 进行 
基因 -基因 基因 -疾病 和 疾病 -疾病 之 间 的 相关 性 分 析 。 同 时 ,下 载 的 数据 可 被 其 他 软件 如 
GBrowse 识 别 , 便 利 下 游 的 功能 研究 。 该 数据 库 为 甲 基 化 研究 提供 了 新 的 便捷 工具 ,为 阐释 
癌症 的 发 生机 制 .筛选 疾病 相关 的 基因 提供 了 便利 的 研究 工具 。 更 多 DiseaseMeth 详 情 可 以 
访问 其 官方 网 站 : http: //bioinfo.hrbmu.edu.cn/diseasemeth 。 
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(=) 人 类 DNA 甲 基 化 与 癌症 数据 库 (MethyCancer) 


人 类 DNA 甲 基 化 与 癌症 数据 库 ( MethyCancer ) 是 第 一 个 比较 全 面 的 人 类 癌症 DNA 甲 
基 化 数据 库 ( 图 11-5 ), 该 数据 库 旨 在 研究 DNA 甲 基 化 .基因 表达 与 癌症 间 的 相互 作用 ,涵盖 
DNA 甲 基 化 癌症 相关 基因 突变 癌症 信息 和 CpG 岛 等 信息 ,对 这 些 不 同 数据 类 型 之 间 的 互 
联 互通 进行 了 分 析 和 讨论 。 
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当前 版 本 的 MethyCancer 存 储 了 人 类 表 观 基因 组 计划 ( HEP ) 等 测定 的 人 类 145 个 组 织 

的 DNA 甲 基 化 数据 ,以 及 7075 个 癌症 相关 基因 中 的 DNA 甲 基 化 模式 ,为 进一步 分 析 癌 症 中 蜡 
常 DNA 甲 基 化 提供 了 数据 资源 。MethyCancer 的 DNA 甲 基 化 搜索 界面 ,可 用 来 搜索 用 户 感 兴 
趣 区 域 的 甲 基 化 模式 。 男 外 该 数据 库 还 提供 了 基因 搜索 界面 ,癌症 搜索 界面 \ 序 列 搜索 界 
面 及 重复 序列 搜索 界面 。MethyCancer 还 提供 了 搜索 工具 和 可 视 化 工具 ( MethyView ) 来 帮助 
用 户 获 取 感 兴趣 的 数据 并 在 基因 组 的 背景 下 查看 DNA 甲 基 化 模式 。 该 数据 库 加 速 了 研究 者 
XE Ac AE B3 5r FL al AY) 8 BJ ,并 促进 了 癌症 诊断 、 治 疗 机 预后 的 有 效 手 段 的 研究 。 更 多 
MethyCancer 详 情 可 以 访问 其 官方 网 站 : http: /methycancer.psych.ac.cn/。 


(=) 人 类 组 蛋 日 修饰 数据 库 


人 类 组 重 白 修饰 数据 库 ( human histone modification database, HHMD ) 是 人 类 组 和 蛋白 修 
饰 数据 库 是 迄今 为 止 收 录 各 种 实验 测定 的 人 类 基因 组 组 蛋白 修饰 最 为 全 面 的 数据 库 ( 图 
11-6 ), 该 数据 库 绅 在 存储 人 类 各 组 织 中 的 高 通 量 组 集 日 修饰 数据 ,并 提供 各 种 癌症 基因 上 
的 组 蛋白 修饰 状态 。 当 前 版 本 的 HHMD 共 涵盖 了 43 种 基于 ChIP 技 术 的 实验 技术 测定 的 人 类 
组 焦 日 修饰 的 大 通 量 实验 数据 ,并 提供 了 通过 文献 得 到 的 9 种 癌症 相关 的 基因 的 组 重 白 修饰 
的 信息 。 

用 户 可 以 通过 搜索 相应 的 基因 组 区 域 中 的 组 蛋白 修饰 ,该 数据 库 提供 了 五 种 搜索 组 和 蛋 
白 修 饰 的 方式 ,分 别 是 组 蛋白 修饰 类 型 .基因 ID .功能 注释 染色体 定 位 癌症 类 型 。 并 可 以 
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通过 可 视 化 组 蛋白 修饰 的 工具 HisModView 进 行 基因 组 水 平 可 视 化 ,在 已 有 的 基因 组 注释 的 
背景 下 研究 组 蛋白 修饰 的 分 布 .这 些 组 蛋白 修饰 与 DNA 甲 基 化 之 间 的 关系 ,以 及 二 者 与 相应 
基因 功能 元 件 的 位 置 关系 , 据 此 来 设计 实验 对 感 兴趣 的 区 域 进行 湿 实 验 研究 。 该 数据 库 文 
持 用 户 对 搜索 和 可 视 化 的 结果 进行 下 载 ,并 且 提 供 了 处 理 基 因 组 组 蛋 日 修饰 数据 的 Java 程 
序 。 整 个 数据 库 体 现 了 很 好 的 交互 性 操作 ,对 研究 组 蛋白 修饰 与 其 他 表 观 遗传 调控 元 件 如 
DNA 甲 基 化 之 间 的 相互 作用 关系 提供 了 一 个 很 好 的 平台 ,能 够 促进 组 重 白 修饰 在 染色 质 重 
XH 转录 调控 和 人 类 疾病 中 作用 机 制 的 研究 。 更 多 HHMD 详 情 可 以 访问 其 官方 网 站 : http: // 
bioinfo.hrbmu.edu.cn/hhmd o 
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Human Histone Modification Database 
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Quick Search Introduction 
Histone Modification Human Histone Modification Database (HHMD), a comprehensive database for human histone 
modifications, which focuses on integrating useful histone modification from experimental data 

Gene ID that is essential for understanding these modifications at a systematic level. The current release of HHMD 
d incorporates 43 location-specific histone modifications in human. We also provide a comprehensive resource 

į of histone modification regulation in 9 human cancer types. We developed HisModView to facilitate the users 
Chromasoaae Location to browse histone modifications in the context of existing human genomic annotations. 
Functional categories * All Histone modifications can be searched bv gene ID, cancer name, histone modification or 

chromosome location. 





HisModView - Please cite the paper if you use HHMD. "HHMD: the human histone modification database, Nucleic 
Acids Research 2010, 38(Database 13326) D149-D154. click to browse our paper” 
* HHMD will update regularly. Last Update: 11-29-2010 


Links Histone Modifications on Human Chromsomes 


UCSC Genome Bioinformatics 





> a. 
Seaik IM 


Chromatin ppe 





Ww 1) 12 1 


图 11-6 ”人 类 组 蛋白 修饰 数据 库 (CHHMD ) 首页 
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表 观 遗传 修饰 谱 分 析 


Section 3 Analysis of epigenetic modification map 





表 观 遗传 调控 失调 与 许多 疾病 有 着 密切 的 关系 。 如 表 观 遗传 机 制 调控 免疫 系统 的 功能 ， 
当 这 一 机 制 失调 时 ,会 引起 类 风湿 疾病 和 系统 性 红斑 狼疮 的 发 生 。 同 样 , 表 观 遗传 调控 大 脑 
神经 细胞 的 活性 ,精神 性 疾病 如 精神 病 和 药物 滥用 反应 与 表 观 遗传 改变 相关 。 对 于 所 有 的 
币 见 疾病 ,肿瘤 中 表 观 遗传 改变 的 作用 研究 得 最 详细 。 肿 瘤 抑 制 基因 的 表 观 遗传 沉默 是 多 
种 肿瘤 的 频 系 发 生 事件 ,一些 证 据 表 明 它 是 肿瘤 发 展 的 重要 原因 ,如 最 近 的 研究 显示 DNA 甲 
基 化 模式 在 瘤 细胞 和 正常 细胞 存在 较 大 的 差异 ,在 正常 细胞 中 ,全 基因 组 是 高 甲 基 化 而 在 
CpG 岛 中 低 甲 基 化 。 在 疗 细 胞 中 则 呈现 全 基因 组 的 低 甲 基 化 和 某 些 CpG 岛 的 高 甲 基 化 ,这 则 
可 能 与 DNA 甲 基 化 调控 致癌 基因 和 换 况 基因 的 相对 表达 水 平 相关 。 癌 细胞 和 成 体 胚胎 干 细 
胞 之 间 有 者 相似 的 表 观 遗传 特征 ,暗示 着 表 观 遗传 失调 使 细胞 行为 会 回 肿 瘤 细 胞 方向 发 展 。 


一 基因 组 范围 内 疾病 差异 甲 基 化 区 域 筛 选 》》 


(一 ) 差异 甲 基 化 区 域 的 生物 学 意义 


DNA 甲 基 化 的 差异 在 发 育 过 程 和 疾病 的 发 生发 展 过 程 中 扮演 着 重要 的 角色 。 基 因 的 差 
异 甲 基 化 区 域 ( DMRs ) 是 指甲 基 化 模式 发 生 改 变 的 区 域 , 研 究 发 现 它们 可 能 是 调控 基因 转 
录 的 功能 区 域 。 大 量 的 研究 发 现在 人 类 的 各 组 织 间 存在 组 织 差异 甲 基 化 区 域 (T-DMRs ), 
癌症 中 存在 癌症 差异 甲 基 化 区 域 (C-DMRs ), 对 差异 甲 基 化 区 域 的 识别 可 促进 人 类 基因 组 
中 表 观 遗传 变异 的 生物 学 意义 的 研究 。 

目前 普遍 认为 DNA 甲 基 化 参与 细胞 增殖 和 分 化 ,不 仅 在 发 育 阶段 发 现 了 发 育 差 异 甲 基 
化 区 域 ( D-DMRs ), 而 且 在 重 编程 的 过 程 中 也 发 现 了 重 编程 差异 甲 基 化 区 域 (R-DMRs ), 这 
些 R-DMRs 与 T-DMRs 和 C-DMRs 也 有 着 高 度 的 重 和 到 。 

此 外 , 随 着 年 龄 的 增长 表现 出 个 体内 的 差异 甲 基 化 区 域 ( Intra-DMRs ), 以 及 在 多 个 个 体 
间 的 差异 甲 基 化 区 域 ( Inter-DMRs )。 通 过 对 DMRs 的 研究 能 够 更 深入 地 了 人 解 DNA 甲 基 化 与 
其 他 表 观 遗传 调控 因子 协同 调控 基因 功能 的 具体 机 制 。 


(二 ) 差异 甲 基 化 区 域 的 筛选 方法 
目前 天 于 差异 甲 基 化 区 域 相关 的 研究 中 ,已 有 了 一 些 计 算 方 法 用 来 从 实验 数据 中 识别 
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差异 甲 基 化 区 域 。 在 最 初 关 于 差异 甲 基 化 区 域 的 研究 中 ,由 于 实验 技术 的 限制 ,人 们 只 关注 
少数 几 个 基因 在 样本 间 的 DNA 甲 基 化 差异 ,如 Shen 等 通过 限制 性 内 切 酶 方法 测定 一 簇 B - 珠 
蛋白 基因 中 的 DNA 甲 基 化 ,然后 通过 观察 DNA 甲 基 化 在 各 组 织 中 的 差异 来 分 析 组 织 特异 的 
DNA 甲 基 化 。 

随 着 高 通 量 实验 技术 的 不 断 进步 ,在 过 去 的 几 年 里 ,一 直 在 努力 开发 计算 的 方法 来 识别 
DMRs。 为 了 在 两 个 样本 间 筛 选 DMRs, Bibikova 等 人 对 人 类 胚胎 干细胞 和 正常 完全 分 化 细胞 
中 的 甲 基 化 水 平 进 行 7 检验 。 在 另 一 项 研究 中 ,为 了 进行 配对 组 织 比较 ,使 用 平均 甲 基 化 的 
差异 以 及 z 值 来 衡量 差异 甲 基 化 。 然 而 ,这 两 种 方法 并 不 适用 于 多 于 样本 的 情形 。 

在 处 理 多 样本 的 数据 时 ,有 两 种 第 选 DMRs 的 统计 学 方法 : Byun 等 使 用 的 方差 分 析 
( ANOVA ) 和 Eckhardt 等 使 用 的 Kruskall-Wallis 检 验 。Byun 等 使 用 的 前 提 是 数据 服从 正 态 分 
布 , 但 是 这 个 假设 在 服从 双 峰 分 布 的 甲 基 化 数据 中 是 不 存在 的 ,所 以 该 方法 对 于 分 析 DNA 甲 
基 化 数据 有 些 受 限 。 

Eckhardt 等 使 用 的 Kruskall-Wallis 检 验 不 依赖 于 数据 分 布 , 比 前 者 更 适合 用 来 沛 选 
DMRs, 但 是 这 种 统计 方法 利用 的 数据 中 甲 基 化 状态 的 排 秩 , 对 于 排 秩 顺 序 相同 的 甲 基 化 区 
域 ,能 够 给 出 相同 的 结果 ,但 是 并 没有 考虑 到 甲 基 化 波动 范围 市 来 的 影响 ,如 波动 泡 围 大 的 
区 域 应 该 有 更 大 的 差异 ,因此 这 种 方法 可 能 丢失 原始 数据 中 丰富 的 数字 信息 。 

除了 统计 学 方法 ,还 有 两 种 非 统 计 学 的 方法 , Fan 等 将 在 所 有 组 织 中 的 甲 基 化 程度 都 大 
于 50% 的 区 域 定义 为 甲 基 化 区 域 ,都 小 于 50% 的 区 域 定义 为 非 甲 基 化 区 域 ,其 他 区 域 则 为 
DMRs ,显然 这 种 方法 忽视 了 甲 基 化 程度 在 $0% 附 近 的 区 域 的 正确 分 类 。 

作为 这 种 方法 的 改进 , Rakyan 等 提出 将 某 个 组 织 中超 高 甲 基 化 T-DMRs 定 义 为 在 该 组 
织 中 甲 基 化 程度 大 于 60% 且 至 少 在 三 个 其 他 组 织 中 的 甲 基 化 程度 小 于 40% 的 区 域 , 超 低 甲 基 
化 T-DMRs 则 为 该 组 织 中 小 于 40% 且 在 至 少 三 个 其 他 组 织 中 大 于 60% 的 区 域 ,剩余 的 区 域 为 
非 差异 甲 基 化 区 域 。 

有 人 利用 改进 后 的 香农 信息 丧 开 发 了 一 个 新 的 方法 QDMR ,并 提供 了 界面 友好 的 简单 
易 用 的 JAVA 软件 ,对 各 种 不 同样 本 间 的 甲 基 化 差异 进行 定量 化 ,并 从 基因 组 范围 内 响 选 出 
差异 甲 基 化 的 基因 组 区 域 。 基 于 之 前 用 于 筛选 差异 表达 基因 的 信息 科 的 方法 ,通过 输入 值 
校正 和 焙 值 校正 两 步 改 进 , 用 来 筛选 差异 甲 基 化 区 域 ,这 是 信息 箭 理论 第 一 次 用 来 岂 选 某 种 
因素 在 不 用 样本 间 的 差异 程度 ,并 且 是 第 一 次 用 来 第 选 差异 甲 基 化 区 域 。 基 于 信息 炉 的 方 
法 不 仅 能 够 衡量 每 个 基因 组 区 域 在 不 同 生 命 状态 间 的 定量 差异 程度 ,而 且 能 够 根据 这 种 差 
异 程度 来 对 所 有 区 域 进行 排 秩 或 者 分 类 , 除 此 之 外 ,还 可 以 指出 差异 甲 基 化 区 域 在 哪个 生命 
状态 下 特异 的 发 生 高 / 低 甲 基 化 ,从 而 可 以 研究 不 同类 别 的 区 域 在 不 同 生命 过 程 中 所 扮演 的 
不 同 角 色 。 

【 例 11-1 ] QDMR 方 法 第 选 差 异 甲 基 化 区 域 

表 11-4 给 出 了 40 437 个 人 类 基因 组 区 域 在 16 个 组 织 中 的 甲 基 化 状态 ,利用 QDMR 软 件 对 
组 织 间 的 甲 基 化 差异 进行 定量 ,并 科 选 差异 甲 基 化 区 域 DMR。 
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11-4 人 类 16 个 组 织 中 的 甲 基 化 数据 
i : 组 织 类 型 
| .Ti T2 T8 T4 T5 T6 T7 T8 T9 T10 Tii T12 T13 T14 T15 Tie 
ROI0000010 20 31 31 34 19 24 20 18 34 3| 29 13 27 34 26 17 

















ROI000002. 60 56 63 63 57 61 58 59 56 55 54 63 56 58 59 61 
ROIO00003 64 55 63 61 61 62 58 60 54 52 54 69 60 58 61 62 
ROIO00004 35 40 43 51 38 35 43 38 46 41 53 23 51 35 37 48 
ROIO00005 40 36 42 44 37 46 42 38 39 4l 43 28 45 40 36 45 
ROIO00006 34 27 34 29 28 25 28 24 36 32 4l 18 35 29 27 30 
ROIO00007 27 29 36 30 25 31 26 18 30 29 42 12 37 32 20 20 
ROIO00008 71 57 74 67 72 78 75 76 61 65 67 67 71 62 71 59 
ROI000009 66 48 74 61 44 66 55 51 57 63 67 31 67 59 76 35 
ROI000010 24 22 27 26 2123 22 21 24 27 29 20 31 25 24 23 


ROI040437 50 44 60 58 55 54 51 42 51 62 65 34 54 52 29 55 


jE: 数据 来 源 : Rakyan VK.An integrated resource for genome-wide identification and analysis of 
methylated regions (tDMRs).Genome Res.2008 ; 18,1518-1529, 


1. 甲 基 化 差异 定量 


= -5 Pir log, (5. ) X 

其 中 为 样本 总 数 ,mm 为 区 域 /在 样本 s 中 的 甲 基 化 值 , max Cm, )、 minm, )、 MAXIUMIN 

分 别 为 区 域 r 各 样本 中 的 最 大 甲 基 化 值 . 区域" 在 各 样本 中 的 最 小 甲 基 化 值 . 整 体 最 大 甲 基 化 

值 和 整体 最 小 甲 基 化 值 , e 为 非常 小 的 数 , 到 为 一 步 双 加 权 的 距离 (用 于 避免 原始 箭 公开 对 
特异 高 甲 基 化 的 偏好 性 )。 


( 11-1) 





og, ee mel | 


MAX — MIN 











M, -Ty 


r,s 


p, E (11-2) 
3m. -T. 

AS foi) FA LX Ja R O1000001 AEE 98.457 Xt BACHE P YY BES DX a AB A] RH. EB ZS EAT 
甲 基 化 差异 定量 (图 11-7 )。 

2. 差异 甲 基 化 区 域 饰 选 

为 了 基于 定量 的 甲 基 化 箭 筛选 组 织 间 差 异 甲 基 化 的 区 域 ,该 方法 又 基于 概率 论 P 


— Mea ] 
HIE (中 Mean =~ (MAX — MIN) ) 服 从 均值 为 0 标准 差 为 SD 的 正 态 分 布 ， 


确定 相应 的 SD 值 即 可 模拟 随机 的 甲 基 化 谱 , 将 随机 甲 基 化 谱 获得 的 炳 值 的 平均 值 作为 短 选 
差异 甲 基 化 区 域 的 阔 值 ,该 方法 默认 取 SD 为 0.07( 意 味 着 同一 个 区 域 95% 的 样本 中 甲 基 化 什 
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图 11-7 人 类 16 组 织 间 甲 基 化 差异 定量 
A. 4404374 IX 3k B^] SE (OA AD BIA HE. B. 为 A 中 上 方 粹 值 最 小 的 100 个 区 域 的 热 图 ,C. 为 A 中 


EA Mate A WY 1007 KK A 


X X 于 : Zhang Y. QDMR: a quantitative method for identification of differentially methylated 


regions by encropy.Nucleic Acids Res.2011; 39 : 58. 
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在 36 到 64 之 间 ), 获 得 科 选 组 织 间 差异 甲 基 化 区 域 的 国 值 $.326。 根 据 该 国 值 从 40 437 个 区 域 
中 筛选 出 10 651 个 组 织 间 差异 甲 基 化 区 域 (图 11-8 )。 
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组 织 类 型 


图 11-8 人 类 16 组 织 间 差异 甲 基 化 区 域 及 组 织 特异 性 
来 源 于 : Zhang Y. QDMR: a quantitative method for identification of 
differentially methylated regions by encropy.Nucleic Acids Res.2011; 39 : 58. 


3. 样本 特异 性 衡量 
对 于 基于 以 上 羡 值 沉 选 的 差异 甲 基 化 区 域 ,该 方法 利用 差 炉 定义 了 各 样本 中 绝对 特异 
性 测度 : 
nl jg MSM... IH oU 
CS = i 


0 AH, <0 (1173) 


ris 


ris 


其 中 AH,, = Ho; -Ho Sh Ho, HRAPAR KAAR FL 
域 在 各 样本 中 的 甲 基 化 特异 性 。 大 于 0 的 CS 表示 该 DMR 在 该 样本 中 特异 高 甲 基 化 ,小 于 0 表 
示 特 异 低 甲 基 化 。 利 用 方法 衡量 以 上 筛选 出 的 10 651 个 T-DMR 的 组 织 特异 性 (图 11-8 ). 


二 、 组 蛋白 修饰 的 改变 与 人 类 疾病 >> 


(一 ) 组 蛋白 修饰 改变 参与 疾病 发 生 


组 蛋白 修饰 在 基因 表达 的 调控 中 具有 重要 的 作用 ,疾病 状态 下 异常 基因 表达 可 能 是 导 
致 疾病 发 生 的 原因 之 一 。 最 近 的 人 研究 已 经 表明 癌症 中 组 蛋白 修饰 H4K16ac 和 H4K20me3 的 
全 局 性 的 缺失 ,而 之 前 的 研究 已 经 表明 这 些 修 饰 出 现在 整个 基因 组 中 ,特别 是 履 盖 在 重复 序 
列 中 的 DNA 低 甲 基 化 区 域 。 相 反 , 还 有 人 研究 在 特定 基因 局 动 子 区 发 现 了 H3K9ac、H3K4me2 
和 H3K4me3 的 缺失 ,以 及 H3K9me2 、H3K9me3 和 H3K27me3 的 获得 ,这 些 组 蛋白 修饰 的 改变 


一 \478 第 十 一 章 计算 表 观 遗传 学 
CHAPTER 11 COMPUTATIONAL EPIGENETICS 


能 够 沉默 关键 肿瘤 抑制 基因 从 而 促进 肿瘤 发 生 。 

另外 发 现 癌症 中 DNA 甲 基 化 标记 的 基因 和 多 梳 家 族 和 蛋白 ( polycomb group protein, PcG ) 
基因 高 度 重合, 之 前 有 报道 称 多 梳 家 族 重 白 经 常 与 抑制 性 组 焦 白 修饰 H3K27me3 共 定位 , 因 
此 可 以 推测 某 些 基因 在 癌症 中 被 特定 的 抑制 性 组 重 白 修饰 靶 向 ,导致 其 沉默 。 


(二 ) 组 蛋白 修饰 酶 介 导 组 蛋白 修饰 改变 


在 组 蛋白 修饰 发 生 改变 的 过 程 中 ,组 蛋白 修饰 相关 的 酶 起 了 关键 作用 。 通 过 催化 酶 的 
平衡 对 组 蛋白 修饰 进行 双向 调控 ,这 是 翻译 后 修饰 的 典型 特征 。 在 疾病 状态 下 催化 酶 的 失 
衡 将 导致 表 观 遗传 修饰 的 异常 ,从 而 导致 疾病 相关 基因 的 表达 和 功能 异常 。 

最 近 的 研究 显示 这 种 失衡 在 人 类 和 小 鼠 的 肿瘤 生成 具有 重要 的 作用 。 例 如 ,组 重 白 甲 
基 转 移 酶 ( HMTs ) EZH2 能 够 催化 H3K27me3 ,该 酶 的 过 表达 能 够 促进 肿瘤 生长 ,这 种 肿瘤 包 
括 如 黑色 素 瘤 淋巴 瘤 前列腺 瘤 以 及 乳腺 癌 。 同 时 ,癌症 中 H3K27me3 的 组 和 蛋白 去 甲 基 化 酶 
( HDMTs ) 的 失 活 则 导致 H3K27me3 修 饰 的 增加 ,已 经 在 多 种 肿瘤 中 发 现 了 该 现象 ,如 多 发 性 
ET BEJA ,食管 鳞 状 细胞 癌 和 肾 细 胞 癌 等 。 

此 外 ,研究 还 发 现 H3K9me3 甲 基 化 转移 酶 SUV39H 参 与 肿瘤 的 发 生 和 发 展 ,该 酶 在 小 鼠 
中 的 缺失 导致 染色 质 不 稳定 并 促进 肿瘤 的 生成 。 除 癌症 中 组 蛋白 甲 基 化 转移 酶 外 ,组 蛋白 
乙酰 化 转移 酶 (HAT ) 和 组 蛋白 去 乙酰 化 酶 (HDAC ) 也 导致 大 量 的 基因 特异 组 蛋白 乙酰 化 
改变 。 研 究 发 现在 急性 白血病 中 HDACs 和 HMTs 的 异常 能 够 介 导 基因 表达 的 沉默 。 对 各 种 
组 蛋白 修饰 酶 的 平衡 机 制 的 研究 将 有 助 于 解释 组 重 白 修饰 参与 疾病 发 生发 展 的 作用 。 





三 、 人 类 疾病 相关 的 基因 组 印记 分 析 》》 


(一 ) 基因 组 印记 分 析 的 意义 


通常 情况 下 ,印记 基因 的 印记 发 生 过 程 通过 逐渐 的 亲本 固定 的 随机 单 等 位 进化 和 表达 
来 实现 ,如 果 两 个 等 位 基因 都 沉默 则 产生 致死 效应 ,固定 的 印记 基因 单 等 位 表达 确保 了 精确 
的 蛋白 质 水 平 调节 胚胎 和 产后 生长 以 及 行为 \ 代 谢 。 很 多 研究 已 经 揭示 遗传 和 表 观 遗传 的 
机 制 调节 印记 基因 的 表达 ,发 育 中 印记 基因 显示 部 分 的 基因 族 共 调控 ,印记 基因 位 点 也 显示 
人 彼此 的 位 置 影响 一 些 表 观 遗 传 状态 的 调控 。 这 些 发 现 表明 印记 基因 在 调控 生长 代谢 和 行为 
上 可 能 是 功能 协调 互 作 的 。 基 因 调 控 水 平 的 协调 又 能 控制 基因 编码 焦 日 质 之 间 和 集 日 质 -入 
日 质 的 相互 作用 。 因 此 系统 的 整合 大 规模 的 重 白 互 作 和 基因 表达 数据 可 以 从 一 个 新 的 视角 
发 现 印 记 基 因 功 能 ,这 对 正常 发 育 和 一 些 复杂 疾病 失调 是 很 有 意义 的 。 


(=) 利用 大 规模 蛋白 质 互 作 网 络 分 析 印 记 基 因 


Sandhu 等 人 应 用 公共 的 PPI 网 络 ,疾病 和 功能 数据 系统 水 平分 析 印 记 基 因 的 功能 ,揭示 
了 印记 基因 “products” 和 他 们 的 互 作 “partners” 有 广泛 的 相互 作用 ,共同 构成 一 个 生长 与 代 
谢 相 关 的 子 网 ,在 维持 人 类 互 作 组 拓扑 和 功能 稳定 性 起 重要 作用 。 

【 例 11-2 】 基 于 网 络 识别 印记 基因 的 过 程 

( 1) 构建 和 分 析 IGPN( Imprinted Gene-products and Partners Network )。 把 已 知 的 人 类 
207 个 实验 发 现 和 预测 的 印记 基因 (来 自 于 geneimprint resource , http: //geneimprint.com ) 映射 


第 十 一 章 ， 计算 表 观 遗传 学 479 一 
CHAPTER 11 COMPUTATIONAL EPIGENETICS 
到 人 类 整合 的 蛋白 质 互 作 网 络 。 通 过 检测 ICPN 和 随机 产生 网 络 的 全 局 和 局 部 聚 类 系数 确 
认 印 记 基 因 产 物 和 搭档 的 共同 性 。 通 过 分 析 证 实 了 IGPN 代 表 人 类 互 作 组 中 紧密 结合 的 网 
络 ,起 主要 调节 功能 的 印记 基因 参与 其 中 。 

(2 ) 评 佑 IGPN 到 HIN 的 无 偏好 性 和 全 局 贡献 。 计 算 全 局 中 心 分 数 命名 为 IGPN 和 HIN 的 
“betweenness” 和 “closeness”。 Betweenness 中 心 是 根据 网 络 中 通过 一 个 特定 项 点 的 左右 最 
短路 径 的 数目 ,而 closeness 代 表 网 络 中 一 个 顶点 到 达 任 何其 他 顶点 的 步 数 ,这 说 明 顶 点 的 全 
局 相关 性 。 分 析 显 示 IGPN 顶 点 与 HIN 和 随机 网 络 相 比 有 更 显著 多 的 中 心 。 由 于 遗传 的 突变 
可 能 导致 完全 的 或 部 分 的 蛋白 质 互 作 缺失 。 基 因 表 达 失 调 在 另 一 种 程度 上 可 能 影响 互 作 的 
partners 的 绑 定 和 非 绑 定 程度 。 非 随机 更 高 的 顶点 代表 可 能 经 验 与 疾病 相关 的 在 基因 水 平 
的 错误 或 者 扰动 ,可 能 意味 着 更 多 的 ICPN 功 能 的 易 受 攻击 性 。 

(3 ) 探 讨 OMIM 数 据 库 中 的 疾病 条 目 。 发 现 IGPN 映 射 的 253 个 基因 与 疾病 相关 。 疾 病 相 
关 的 基因 与 其 他 IGPN 相 比 有 更 高 的 中 心 。 此 外 ,顶点 中 心 和 定点 疾病 数目 正 相 关 , 强 调 这 
种 更 高 的 拓扑 中 心 与 功能 本 质 的 相关 性 。 

(4 ) 疾 病 与 印记 基因 的 关系 。 通 过 基因 集 富 集 分 析 ( gene set enrichment analysis ), 进行 
几 次 随机 扰动 确定 了 特定 表达 表 型 的 非 随机 相关 基因 集 , 显 示 IGPN 基 因子 集 在 疾病 表 型 中 
显著 失调 。 尤 其 是 IGCPN 基 因子 集 在 ALLAML, 精神 病 和 糖尿 病 中 上 调 ,在 自 闭 症 中 下 调 。 
在 哮喘 和 老年 性 痴呆 中 这 种 扰动 是 很 微弱 的 。 共 88% 的 ICGCPN 基 因 和 70% 的 印记 基因 在 疾病 
表 型 中 是 失调 的 ,因此 发 现 复杂 疾病 已 知 与 印记 基因 相关 。 

进一步 分 析 发 现 关 键 的 信号 和 转录 调节 因子 如 T53, NFKB2, HDAC1, SMADI-4, 
EGFR, TGFB1, EP300 是 高 度 的 中 心 节 点 并 与 多 数 疾 病 的 一 般 扰动 相关 。IGPN 和 蛋白 质 更 高 
的 中 心 和 连通 性 直接 说 明 他 们 的 生物 学 意义 。 这 将 可 能 包括 全 全 局 的 调控 子 、 适 应 子 、 效 
应 子 和 调 市 分 子 。 例 如 , GRB2, TRAF6/2 是 信号 适应 子 , SMAD2/3, EGFR 是 重要 的 信号 转 
导 因 子 , TP53 是 主要 的 细胞 周期 调控 因子 , IKBKE 激 酶 和 EP300 是 转录 因子 结合 在 不 同 的 增 
强 子 上 ,最 主要 的 IGPN 中 心 hubs 在 HIN 分 别 有 398,358,323,264,210 和 196 个 互 作 蛋白 质 。 
IGPN 中 的 印记 基因 GNAS( Ga 信号 调节 因子 ), TP73 (细胞 周期 ,印记 状态 冲突 ), INS (信号)， 
UBE3A( 趴 3 泛 素 调节 退化 因子 ), DCN (肿瘤 增长 抑制 因子 ), GRB10( 信 号 转 导 ) 和 NDN( 神 
经 发 育 通 路 调节 ) 最 高 互 作 节 点 分 别 有 53,30,29,27,26,25 和 20 互 作 partners。 因 此 ,印记 
基因 本 号 并 不 是 突出 的 hubs ,尽管 他 们 连接 到 HIN 非 随机 的 中 心 hubs 和 与 ICPN 在 一 起 。 印 
记 基 因 可 以 作为 VIPclub 的 类 似 物 , 因 为 他 们 目 己 不 与 很 多 的 partners 相 连 ， 但 是 多 是 影响 


partners o 


四 、 常 见 的 疾病 表 观 遗传 修饰 数据 分 析 软件 》》} 


高 通 量 技术 产生 的 表 观 遗传 数据 直接 促进 了 各 种 表 观 遗传 软件 的 开发 ,这 些 软件 也 促 
进 了 表 观 基因 组 学 研究 的 不 断 深 入 。 为 了 从 基因 组 水 平 研究 表 观 遗传 学 修饰 ,需要 开发 对 
表 观 遗传 修饰 进行 功能 基因 组 分 析 的 软件 。 目 前 ,可 用 的 软件 中 包括 用 于 基因 组 筛选 差异 
甲 基 化 区 域 的 软件 (QDMR ), 用 于 基因 组 CpG 岛 预测 的 软件 (CpG_MI ) 以 及 ( 表 观 ) 基因 组 分 
析 软 件 ( EpiGraph ) 等 。 下 面 将 对 这 三 个 计算 表 观 遗传 学 软件 的 应 用 进行 简单 的 介绍 。 
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(一 ) BT IA XE BRET PR KE (ODMR) 


AE-T- fri E ij tt Oi TG ES FF Ae DK SE QDMR ) Z&— 7S FE TT Ac IF E i i EE 2, 
多 样本 间 差 异 甲 基 化 区 域 的 软件 (图 11-9 )。 随 着 基因 组 范围 内 DNA 甲 基 化 测定 技术 的 不 断 
进步 ,目前 产生 了 大 量 的 不 同 细 胞 /组 织 中 的 DNA 甲 基 化 数据 ,QDMR 基 于 信息 业 理 论 可 以 定 
量 的 筛选 这 些 不 同 细 胞 /组 织 间 的 差异 甲 基 化 区 域 。 


an | 

0.433 — |770 &—  |730 &— [870 | 

3834 296014002 459 30 CN 

evi 157286119 57287067  |0.476 750 

ODMR 35.. | ROEROS 12477649 |12478248 = a 二 区 
tihe 5023 


OUR 14.. RO 50237612 (50237660 osa — 5:9 — is — i9 3 
MR 1048 ROIROID- kn ponere puwez bsp freo — poo — pao R- 
I 


Operation Guide 

1. The measurement of sample specificity has eer finished and shown in the Specificity Table. 
2. The first few columns 

3 The column named “Entropy” contains de cues i edcdrdigos 

4. The columns named as "CS ' " contain the specificity of each region in every sample. 





图 11-9 基于 信息 炳 定量 第 选 差异 甲 基 化 区 域 软件 (QDMR ) 


该 软件 首先 利用 信息 炉 对 各 细胞 /组 织 间 的 甲 基 化 差异 进行 定量 ,然后 再 通过 恰当 的 国 
值 筛选 差异 甲 基 化 区 域 ,并 计算 每 个 差异 甲 基 化 区 域 在 各 细胞 /组 织 中 的 甲 基 化 特异 性 。 同 
时 ,该 软件 不 仅 对 处 理 的 数据 提供 了 可 视 化 ,还 提供 了 UCSC 基 因 组 浏览 硕 的 连接 ,便于 用 于 
查看 差异 甲 基 化 区 域 附近 的 基因 组 信息 及 其 他 调控 元 件 信 息 等 。 该 软件 适用 于 所 有 能够 转 
换 为 0 到 1 的 连续 数 表示 甲 基 化 状态 的 实验 技术 。 基 于 Web 的 和 本 地 化 的 QDMR 软 件 的 下 载 
及 更 多 说 明 可 以 访问 其 官方 网 站 http: //bioinfo.hrbmu.edu.cn/qdmr/。 


(=) 界面 友好 的 ( 表 观 ) 基因 组 分 析 和 预测 软件 (EpiGraph) 


EpiGraph, 是 一 个 界面 友好 的 ( 表 观 ) 基因 组 分 析 和 预测 的 在 线 软 件 ( 图 11-10 )。 
EpiGraph 可 用 于 复杂 的 基因 组 和 表 观 基因 组 数据 集 的 生物 信息 学 分 析 , 重 于 以 组 为 单位 的 
涉及 两 分 类 问题 的 基因 组 区 域 的 分 析 。 使 得 生物 学 家 可 以 在 消 椎 动物 基因 组 和 表 观 基因 组 
数据 集中 发 现 隐 含 的 关联 。 

EpiGraph 根 据 用 户 提交 的 一 组 基因 组 区 域 ,测试 多 种 属性 ( 包括 DNA 序 列 ,染色 质 结构 ， 
表 观 遗传 学 修饰 以 及 进化 保守 ) 是 否 在 这 些 区 域 中 富 集 或 缺失 。 此 外 , EpiGraph 将 会 以 预测 
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EpiGRAPH: A user-friendly software for advanced (epi-) genome analysis and predictton 


Welcome to EpiGRAPH! | : 
EneRApHYse softwar for genome nd eplgenome It was developed to help biomedical researchers making sense of E 
gone IR end powered, cdr Vos EIGRAPH vabalo próvidos k defi Ghi veli wordiow 
socal to most cate To id mt more about any dle ol enome EDIGRAPH performs statistical analyses and 
. users, desine pueri amio a n system 
2> CLICK HERE TO START EPIGRAPH <- Ae | \ i 
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een n using EpIGRAPH that we interesting (please 
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analysis requires for few hundred retroviral 
- Lis nniopR Event am dap serunt regne un 


mammals as TA e Im rmm 
-> This analysis requires ChIP-on-chip data for Polycomb repression complex proteins in. 


* Cancer Genomics: To what degree do factors like gene richness, local recombination rates and 
chromatin : cancer. microdeletions and other structural 
st 


> Tele uiMjulo raqpives higo adia Nai a number of tumors. 


图 11-10 EpiGraph# X S # 


的 方式 鉴别 相似 的 基因 组 区 域 。EpiGraph 为 用 户 提 供 了 统计 分 析 的 在 线 服务 ,用 户 只 需要 
闸 单 地 点 击 就 可 以 完 i lee pn ae 
两 组 数据 比较 的 箱 式 图 。EpiGraph 解 决 了 两 个 基因 组 生物 学 的 普遍 任务 : 一 个 是 发 现 一 

特定 生物 学 作用 的 基因 组 区 域 (例如 实验 定位 的 增强 子 ， rater re 
特异 异常 的 位 点 ) 和 从 公共 数据 库 中 得 到 的 大 量 的 基因 组 注释 数据 的 新 的 关联 。 男 外 是 评 
价 是 否 可 能 鉴别 具有 相似 作用 的 额外 的 区 域 ,而 不 必 进 行进 一 步 的 湿 实 验 。EpiCraph 在 线 
软件 服务 及 更 多 说 明 可 以 访问 其 官方 网 站 : http: //epigraph.mpi-inf.mpg.de/WebGR APH/. 


(=) 基于 互信 息 识别 基因 组 功能 CpG 岛 的 软件 (CpG_MI) 


CpG_MI 是 基于 互信 息 识别 基因 组 功能 CpG 岛 的 软件 (图 11-11 )。 该 方法 不 依赖 于 传统 
方法 对 CpG 岛 长 度 的 限制 ,与 之 前 用 来 识别 CpG 岛 的 方法 相 比 ,有 着 更 高 的 精度 , 且 识 别 出 来 
的 CpG 咏 大 部 分 与 组 和 集 白 修饰 区 域 相关 。 由 于 该 算法 只 依赖 于 基因 组 CpG 二 核 背 酸 的 分 布 ， 
分 析 得 到 其 他 的 状 椎 动物 基因 组 的 CpG 二 核 背 酸 均 服 从 相同 的 指数 分 布 ,因此 可 以 将 此 算 
法 推广 到 其 他 基因 组 中 CpG 岛 的 预测 。 

CpG_MI 提 供 了 在 线 的 和 本 地 化 的 两 种 方式 为 用 户 提 供 CpG 岛 预测 服务 。 在 线 服务 主要 
是 识别 单个 基因 组 区 域 中 的 CpG 岛 ,提供 了 两 种 提交 数据 的 方式 : 一 种 是 提交 基因 组 一 段 序 
列 的 位 置信 息 ,算法 将 在 后 台 访 问 UCSC 数 据 提 取 相 应 物种 基因 组 区 域 的 序列 ; 一 种 是 直接 输 
入 已 经 获取 的 FASTA 格 式 的 序列 或 上 传 FASTA 格 式 的 文件 。 如 输入 人 类 1 号 染色 体 10 014 500 
到 10 036 800 的 基因 组 位 置 ,结果 页 将 列 出 这 段 区 域 中 的 每 个 CpG 岛 的 位 置 .长 度 、CpG 数 目 、 
GC 含量 和 序列 信息 ,将 之 下 载 到 本 地 进行 进一步 的 分 析 。 此 外 ,本 地 化 软件 能 够 对 各 哺乳 动 
物 全 基因 组 的 CpG 岛 进行 预测 。CpG_MI 提 供 了 10 种 哺乳 动物 基因 组 中 预测 的 CpG 岛 的 下 载 
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以 及 在 UCSC 浏 览 器 上 的 可 视 化 信息 。 基 于 Web 的 和 本 地 化 命令 行 的 CpG_MI 软 件 的 下 载 及 
更 多 说 明 可 以 访问 其 官方 网 站 http: /bioinfo.hrbmu.edu.cn/cpgmi/。 








CpG MI: Identifying Functional CpG Island using Mutual Information 


CpG MI provides a useful information-theoretic tool to identify functional CpG islands from the CpG clusterings in the bulk genomes. The CpG islands of 
six mammals and four fishes are identified by CpG_MI for download. Due to CpG dinucleotide densities differ from species to species, the corresponding 
species should be selected firstly for CpG MI. CpG dinucleotides densities of different genomes are implicated in the dialog box of species. Then you can 
identify CpG islands by three approaches: (T) inputing the start and end coordinate positions of a chromosome, or (IT) pasting one sequence in FASTA 
format, or (III) uploading a fasta sequence file. The output of CpG. MI includes the CpG islands identified together with corresponding genome coordinates, la 
length, number of CpGs, G+C content and CpG OÆ of the CpG islands. | 


OO SE ee Di 


Submit a sequence by genomic coordinates: 


| 
| 
[OP YP SE PE EE A ewe oe 


Species. Chrii.e.2) Start End Chain(+/-) 


Human Mer 2006 0j ~o 


[suba ) [Reset 





Paste sequences in FASTA format: 


Human Mar. 2006 (hg18) " 


(Subt | (Reset ) 


图 11-11 CpG_MI 在 线 软件 








BAH 
表 观 遗传 异常 标记 物 识别 





Section 4 Identification of aberrant epigenetic biomarkers 


一 、DNA 甲 基 化 谱 的 特征 在 疾病 中 的 应 用 >> 


(一 ) DNA 甲 基 化 应 用 于 疾病 风险 评估 


DNA 甲 基 化 通常 存在 两 种 潜在 的 风险 评估 方式 即 组 成 性 的 异常 DNA 甲 基 化 检测 和 能 
够 预兆 疾病 发 展 的 获得 性 变异 的 检测 。 前 者 与 表 观 变异 的 隅 代 传 递 相 关 。 尽 管 表 观 遗传 标 
记 的 复位 发 生 在 种 系 中 ,使 得 在 亲本 和 后 代 之 间 的 表 观 遗传 的 遗传 率 高 度 变化 ,但 是 组 成 性 
的 表 观 遗传 变异 在 某 些 个 体 中 是 明显 的 ,能 够 遗传 的 或 者 是 一 种 后 天 种 系 缺 陷 。 解 释 这 种 
现象 的 临床 实例 是 HNPCC(the autosomal dominant hereditary nonpolysis colorectal syndrome ) 
Zt ME, Se RATE BEE B) AEB TE 4) RE A'S A. PEE EUR MLH ， 
MSH2, MSH6 和 PhMS2。 值 得 注意 的 是 一 小 部 分 患 有 HNPCC 的 个 体 中 发 现在 这 些 基因 中 没 
有 一 个 发 生 序列 突变 ,而 发 现 MLHI 或 MSH2 启 动 子 甲 基 化 也 出 现在 正常 组 织 中 ,包括 循环 
血 白细胞 。 在 MSH2 的 研究 中 ,发 现 MSH2 邻 近 基 因 7T4CSTD1 的 突变 ,通过 局 动 子 和 相关 的 
DNA 超 甲 基 化 导致 异常 转录 。MLHI 中 没有 发 现 类 似 的 突变 ,因此 呈现 出 一 种 罕见 的 遗传 种 
系 缺陷 。 

组 成 性 表 观 遗传 变异 ( epimutations ) 也 能 够 偶然 发 生 在 邻近 启动 子 区 域 并 导致 获得 
DNA 甲 基 化 倾向 的 以 单 碱 基 多 态 性 形式 的 遗传 变异 产生 。 这 种 现象 倾 回 于 通过 破坏 反 式 作 
用 保护 蛋白 的 结合 而 发 生 , 如 Sp1。 因 此 , 表 观 遗传 修饰 的 隔 代 遗传 力 能 够 通过 顺 式 幸 控 之 
间或 者 表 观 遗传 自身 的 传送 而 形成 ,但 是 家 族 性 癌症 倾向 很 少 仅 仅 有 表 观 遗传 现象 相关 的 
情况 。 

癌症 风险 评估 的 第 二 个 方法 是 基于 正常 和 倾向 性 组 织 的 甲 基 化 人 研究 来 检测 获得 性 表 观 
遗传 变异 。 例 如 ,在 肺癌 中 ,吸烟 者 的 瘤 前 病变 发 现 p16 的 甲 基 化 ,而 在 非 吸烟 者 中 没有 发 现 
该 基因 的 甲 基 化 。 因 此 , p76 甲 基 化 与 其 他 基因 结合 (如 p14, p15, E-cadberin 和 RASSF14 ) 
能 够 被 用 作 生 物 标 记 评 估 患 者 患 有 肺癌 的 风险 ,并 且 可 通过 检测 唾液 中 甲 基 化 实现 。 在 一 
项 研究 中 通过 对 98 个 疾病 样本 和 92 个 对 照样 本 的 唾液 中 DNA 甲 基 化 的 分 析 ,发 现 14 个 基因 
的 启动 子 甲 基 化 可 用 于 肺癌 风险 的 评估 ,6 个 基因 的 启动 子 高 甲 基 化 被 发 现 与 超过 50% 的 肺 
癌 发 展 风 险 相 关 , 这 6 个 基因 中 的 3 个 或 更 多 基因 的 共同 高 甲 基 化 使 肺癌 发 生 几 率 达 6.5 售 ， 
灵敏 度 和 特异 性 在 65% 的 范围 之 内 。 值 得 注意 的 是 在 肺癌 的 临床 发 生 之 前 的 几 年 间 , 在 唾 
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液 中 可 探测 到 p16 和 MGMT 高 甲 基 化 。 

为 一 个 例子 ,在 结肠 癌 患 者 间 发 现 癌 组 织 和 癌 旁 组 织 中 同时 出 现 IGF II ( insulin-like 
growth factor II ) 这 个 基因 的 印记 缺失 。7GF8 的 印记 缺失 在 外 周 血 淋巴 细胞 中 也 被 发 现 , 通 
过 测定 TGF 克 的 印记 状态 能 够 预测 结肠 瘤 发 生 的 风险 。 在 结肠 中 ,正常 组 织 中 年 龄 相关 的 甲 
基 化 能 够 被 打上 标记 癌症 风险 相关 的 区 域 缺 陷 ,并 且 这 个 区 域 能 够 成 为 一 个 有 用 的 生物 标 
记 。 由 于 DNA 甲 基 化 能 够 通过 药物 介入 而 发 生 去 甲 基 化 ,因此 在 肿瘤 发 生前 的 阶段 的 检测 
能 够 为 瘤 钙 的 预防 策略 打开 一 扇 门 ,通过 被 动 地 对 被 测试 组 织 严密 的 检测 (连续 的 结肠 镜 检 
查 / 文 气管 镜 检 查 法 成 像 研究 等 ), 或 者 主动 地 使 用 低 甲 基 化 药物 或 染色 质 重 塑 因子 尝试 恢 
复 亚 化 前 的 表 型 。 


(=) DNA 甲 基 化 的 改变 作为 诊断 的 标记 


在 临床 环境 中 的 活检 样本 或 体液 中 检测 出 异常 DNA 甲 基 化 能 够 作为 诊断 生物 标记 ,如 
血清 、 唾 液 , 洗 胃液 , 痰 液 、 尿 液 或 类 便 。 例 如 , GSTPI1 在 人 类 前 列 腺 癌 组 织 样本 中 发 现 启 动 
子 区 域 的 高 甲 基 化 ,并 且 在 对 86 个 样本 前 列 腺 癌 的 研究 中 ,检测 出 活 组 织 样本 中 恶性 肿瘤 出 
现 的 敏感 度 为 92% 和 特异 性 为 86%。 相 似 的 ,在 凑 便 样本 中 波形 蛋白 甲 基 化 的 出 现 被 发 现在 
诊断 结肠 瘤 方面 敏感 性 为 46% 和 特异 性 为 90%。 

单一 标记 特异 性 的 缺陷 能 够 通过 使 用 一 组 异常 甲 基 化 基因 来 补偿 。 来 自 175 个 患者 和 
94 个 对 照 的 尿 沉 积 物 DNA 的 检测 中 发 现 有 9 个 基因 甲 基 化 能 够 预测 膀胱 癌 , 敏 感性 为 82%， 
特异 性 为 96%。 使 用 DNA 甲 基 化 作为 疾病 诊断 和 评估 的 生物 标记 的 一 个 局 限 性 是 来 源 于 癌 
前 病变 的 异常 甲 基 化 或 者 年 龄 相关 的 异常 甲 基 化 的 可 能 性 。 目 前 公布 的 研究 表明 这 是 一 种 
较 好 的 阳性 预测 值 的 方法 ,有 很 高 的 敏感 性 和 特异 性 。 


(=) DNA 甲 基 化 谱 的 特征 在 疾病 分 型 中 的 应 用 


表 观 遗传 调控 在 癌症 的 发 生 和 发 展 过 程 中 所 起 到 的 作用 已 经 广泛 被 关注 。CpG 的 甲 
基 化 是 在 哺乳 动物 基因 组 中 是 最 典型 的 表 观 遗传 变化 。 通 过 CpG 岛 超 甲 基 化 导致 的 基因 
沉默 是 肿瘤 中 向 发 生 的 事件 。 此 外 ,特殊 基因 的 超 甲 基 化 ,例如 ,在 结肠 癌 的 研究 中 ,ERu、 
MI7OD71 和 N33 负 并 发 生 在 老龄 化 个 体 的 结肠 组 织 中 。 因 此 , 表 观 遗传 变异 的 早期 发 现 提 出 
这 样 一 个 假说 ,它们 允许 随后 影响 肿瘤 发 生 和 发 展 的 遗传 和 表 观 遗传 变异 的 积累 。 重 要 的 
是 , 某 些 个 体 表 现 出 有 倾向 性 的 异常 启动 子 超 甲 基 化 ,包括 一 些 肿瘤 抑制 基因 。 这 种 现象 ， 
被 称 为 CpG 岛 甲 基 化 显 性 CIMP ,提供 一 个 导致 结肠 癌 的 男 外 的 途径 。 一 些 研 究 已 经 将 CIMP 
与 遗传 特征 和 临床 特征 相关 联 , 包 括 BRAF 和 KRAS 高 的 突变 率 , p53 低 的 突变 率 ,具体 的 组 织 
学 ,家 族 性 事件 和 不 寻常 的 临床 事件 。 ` 

Shen 等 人 分 析 97 个 原 发 的 结肠 癌 患 者 的 遗传 ( BR4F, KRAS, p53 和 微 卫 星 不 稳定 性 ) 和 
表 观 遗传 变异 (27 个 CpG 岛 启动 子 区 的 DNA 甲 基 化 )。 基 于 表 观 遗传 的 DNA 甲 基 化 谱 和 遗传 
的 基因 表达 谱 的 两 个 聚 类 分 析 识 别 出 带 有 截然 不 同 的 分 子 特征 的 亚 型 。DNA 甲 基 化 的 无 监 
督 分 层 聚 类 识别 出 三 个 结肠 癌 的 分 类 ,分 别 为 CIMP1、CIMP2 和 CIMP-negation。 在 遗传 学 上 ， 
这 三 个 分 类 与 三 个 截然 不 同 的 基因 表达 谱 相 一 致 。CIMP1 以 MSX 80% ) 和 BRAF( 53% ) 的 
变异 和 少量 的 KRAS( 16% ) 和 p53( 11% ) 变异 为 特征 。CIMP2 与 92% 的 KRAS 变 异 和 少量 的 
MSI、BRAF、p53 变 异 ( 0,4%,31% ) 有 关 。CIMP-negative 有 高 的 p53 变异 的 比率 ( 71% ) 和 较 
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低 的 MSI、 BRAF、KRAS 变 异 的 比率 ( 12% ,2% 33% )。 基 于 表 观 遗传 和 遗传 特征 的 聚 类 也 识 
别 了 三 个 分 类 ,这 三 个 分 类 与 之 前 的 分 类 有 很 大 程度 上 的 重 琶 。 这 三 个 分 类 不 依赖 于 年 龄 、 
性 别 和 阶段 ,但 CIMP1 和 CIMP2 在 近 端 肿瘤 中 更 常见 。 


(四 ) DNA 甲 基 化 改变 与 治疗 反应 的 评估 


甲 基 化 模式 能 够 用 于 评估 临床 效果 和 对 化 疗 治疗 药物 的 应 答 。 通 常 ,高 DNA 甲 基 化 模 
式 与 较 差 的 预后 相关 ,如 在 肺癌 或 骨 骨 增生 异常 综合 征 。 一 项 51 个 非 小 细胞 肺癌 I 阶段 样 
本 和 116 个 对 照样 本 的 实验 中 ,在 组 织 和 淋巴 结 样本 中 检测 7 个 基因 的 启动 子 甲 基 化 状态 与 
NSCLC 复 发 的 相关 性 。 这 些 基 因 中 的 4 个 基因 的 甲 基 化 ( P16, CDHI3, RASSFIARIAPC ) 表 
明 与 肿瘤 发 生 的 独立 相关 性 , PI6 和 CDHI13 的 甲 基 化 被 发 现在 训练 集 和 结合 训练 集 和 验证 
集 的 集合 中 分 别 是 15.5 和 25.25 的 比值 。 相 似 的 ,通过 一 组 对 10 个 基因 的 研究 评估 , 当 比 较 
于 低 水 平 甲 基 化 的 患者 ,高 水 平 甲 基 化 的 MDS 患 者 被 发 现 有 较 短 的 中 值 存活 数 ( 12.3 个 月 vs 
17.5 个 月 ,p=0.04 ) 和 较 短 的 无 进展 生存 期 ( 6.4 个 月 vs 14.9 个 月 ,p=0.009 )。 

然而 ,在 一 些 例子 中 ,强烈 的 高 甲 基 化 定义 了 一 个 特别 的 癌症 子 集 ,有 一 个 较 好 的 预后 。 
结肠 癌 的 研究 中 ,多 基因 的 CpG 岛 甲 基 化 被 命名 为 CIMP ,与 MLHI 甲 基 化 相关 ,导致 了 较 好 
的 预后 。CIMP 最 近 也 在 多 形 性 胶 质 母 细胞 瘤 中 被 研究 ,在 这 个 研究 中 CIMP 也 被 发 现 与 较 好 
的 预后 相关 ; 比较 于 CIMP-negative 样 本 , CIMP-positive 样 本 在 诊断 时 显著 的 比较 年 轻 ( 平 均 
年 龄 36 岁 vs 59 岁 ); 与 IDHI 体 细胞 突变 紧密 相关 ,并 且 有 显著 好 的 生存 时 期 。 

甲 基 化 也 能 够 用 作 预 测 生物 标记 。 例 如 ,在 角质 母 细 胞 瘤 中 , MGMT DNA 修 复 基 因 的 甲 
基 化 被 报告 对 替 莫 唑 咬 有 较 好 的 应 答 相 关 及 较 好 的 临床 结果 相关 。 的 确 , MGMT 启 动 子 甲 
基 化 ,出 现在 大 约 4$% 的 样本 中 ,被 发 现 与 来 自 奉 艳 唑 咬 治 疗 的 明显 的 效果 相关 ,没有 MCMT 
甲 基 化 的 患者 中 , 替 莫 唑 咬 治 疗效 果 明 显 减 少 。 这 些 数据 表明 肿瘤 甲 基 化 谱 能 够 有 效用 于 
风险 分 类 和 用 于 治疗 的 确定 。 


二 整合 遗传 与 表 观 遗传 特征 识别 疾病 相关 基因 D> 


经 典 的 遗传 与 表 观 遗传 是 一 个 事物 的 两 个 方面 ,二 者 相互 依存 而 又 相互 区 别 地 构成 一 
个 整体 ,这 样 人 类 基因 组 就 包含 两 个 信息 。 遗 传 学 提供 合成 生命 所 必需 的 重 白 质 的 模板 ,而 
表 观 遗传 学 的 信息 则 提供 了 何 时 、 何 地 以 及 如 何 应 用 上 述 遗 传 学 信息 的 指令 。 整 个 基因 组 
通过 DNA 精 确 地 复制 转录、 翻译 ,保证 了 遗传 信息 的 稳定 性 和 连续 性 ,同时 又 通过 表 观 遗传 
学 机 制 ,使 基因 组 在 内 外 环境 条 件 下 选择 性 地 表达 信息 ,最 终 形 成 遗传 性 状 。 

过 去 研究 者 们 主要 关注 于 癌症 在 遗传 方面 变异 的 研究 ,各 种 关于 癌症 的 研究 识别 了 大 
量 的 与 癌症 相关 的 遗传 突变 基因 。 随 着 对 癌症 研究 的 逐渐 深入 以 及 表 观 遗传 学 的 发 展 ,人 
们 了 解 遗传 突变 和 表 观 遗传 变异 共同 导致 了 总 钙 的 发 生 与 发 展 。 

Goh 等 人 使 用 基因 组 特征 对 癌症 的 超 甲 基 化 基因 进行 排 秩 。 他 们 使 用 计算 的 方法 对 实 
验证 实 的 癌症 超 甲 基 化 基因 进行 排 秩 。 为 了 构建 判别 模型 ,他 们 同时 选择 基因 组 范围 的 基 
因 作 为 对 照 , 识 别 过 甲 基 化 基因 作为 潜在 的 诊断 和 预后 的 生物 标记 。 

Yang 等 人 开发 了 一 个 名 为 PGnet 的 算法 ,并 构建 了 一 个 包含 表 型 ,基因 和 表 观 遗传 调控 
相关 的 机 制 锚 定 网 络 。 研 究 了 132 个 ( 9 种 不 同 表 型 和 三 种 对 治疗 啊 应 的 度量 ) 急 性 淋巴 细 
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Ad Ama C ALL ) 微 阵列 。 通 过 随机 抽样 可 以 从 ALL 表 型 得 到 一 个 稳定 的 子 网 。 使 用 这 个 稳 
定 的 网 络 对 ALL 复 发 进行 预测 ,结果 评估 是 显著 的 (p=0.03 )。DNA 启 动 子 区 域 的 CpG 岛 甲 基 
化 是 导致 癌症 中 异常 基因 表达 的 一 个 机 制 。 

Loss 等 人 利用 logistic 回 归 模 型 构建 基因 启动 子 区 域 甲 基 化 与 表达 之 间 的 关系 并 对 其 排 
秩 , 在 45 个 乳腺 奖 细 胞 系 中 识别 了 58 个 基因 作为 表 观 遗传 调控 的 基因 。Cui 等 人 构建 了 一 个 
手工 获得 的 人 类 信号 网 络 , 将 一 组 癌症 突变 基因 和 一 组 癌症 相关 的 甲 基 化 异常 基因 即 应 映 
射 到 信号 网 络 中 。 研 究 发 现 癌 证 突 变 基因 主要 富 集 在 正身 信号 调节 通路 中 ,而 甲 基 化 异常 
基因 主要 的 富 集 在 癌症 细胞 中 负 向 调节 通路 中 。 

Liu 等 人 利用 网 络 理论 并 结合 表 观 遗传 和 遗传 特征 ,在 癌症 中 识别 甲 基 化 异常 的 基因 
( 见 实例 2 )。 他 们 整合 文献 证 实 的 和 蛋白质 互 作 数 据 和 DNA 甲 基 化 数据 ,构建 人 类 加 权 网 络 
(WHPN )。WHPN 呈 现 了 基因 对 间 的 NDA 甲 基 化 水 平 的 相互 关系 。 在 这 个 网 络 中 ,利用 获得 
的 癌症 相关 甲 基 化 异常 基因 ,获得 一 个 与 癌症 紧密 相关 的 子 网 络 ( CASN )。 通 过 比较 网 络 的 
拓扑 特征 ,发 现 CASN 有 比 WHPN 更 加 紧密 的 网 络 结构 。 利 用 邻接 加 权 规 则 在 子 网 络 识 别 了 
154 个 潜在 的 癌症 相关 的 甲 基 化 异常 基因 。 发 现 这 个 基因 主要 参与 调节 细胞 凋 亡 的 生物 学 
过 程 ,并 有 昌 其 中 很 多 基因 在 癌症 会 发 生 不 同 程度 的 差异 表达 。 最 后 ,通过 结合 手动 确认 的 文 
本 挖掘 ,发 现 这 些 识别 的 潜在 癌症 相关 的 甲 基 化 异常 基因 中 ,一 些 能 够 作为 癌症 诊断 和 预后 
的 生物 标记 ,以 及 药物 应 答 靶 点 。 
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Section5 The human epigenome project and its significance 


一 、 表 观 基因 组 计划 介绍 >>. 


(一 ) 人 类 表 观 基因 组 计划 (human epigenome project, HEP) 


开始 于 1999 年 的 第 一 个 国际 性 表 观 基因 组 计划 即 人 类 表 观 基因 组 计划 ,目的 是 公布 在 
人 类 健康 组 织 和 细胞 中 生成 从 识别 出 的 可 变 甲 基 化 位 置 而 产生 的 人 类 DNA 甲 基 化 参考 图 
谐 。HEP 利 用 高 通 量 亚 硫 酸 盐 PCR Sanger 测序 方法 绘制 了 人 类 12 个 组 织 和 细胞 中 3 条 染色 
体 的 DNA 甲 基 化 图 谱 。 一 些 研 究 工 作 利用 HEP 的 数据 分 析 发 现 DNA 甲 基 化 有 组 织 特 异性 、 
在 进化 保守 区 域 频繁 发 生 改 变 . 个 体 发 育 过 程 中 相对 稳定 等 现象 。 在 以 后 的 研究 中 ,为 了 完 
善 HEP 的 数据 , Down 等 人 利用 MeDIP-chip 实 验 绘制 了 16 个 组 织 或 细胞 的 DNA 甲 基 化 图 谱 ， 
Rakyan 等 人 使 用 MeDIP-seq 绘制 了 第 一 个 人 类 全 基因 组 的 甲 基 化 图 谱 。 


(Z) 癌症 基因 组 图 谱 (the cancer genome atlas, TCGA) 


由 美国 发 起 的 TCGA 计 划 是 第 一 个 从 遗传 学 及 表 观 遗传 学 两 个 方面 的 变化 来 考察 人 
类 癌症 ,目前 已 经 收集 了 比较 全 面 的 胶 质 瘤 、 肺 痛 和 卵巢 瘤 的 数据 ,其 他 癌症 的 数据 正在 不 
打 更 新 ,计划 在 今后 的 $ 年 将 公布 超过 20 种 肿瘤 及 成 千 个 样本 的 遗传 学 及 表 观 遗传 学 数据 。 
TCCA 提 供 了 更 涤 刻 的 理解 人 类 总 狂 基 因 组 及 表 观 基因 组 的 改变 在 癌症 发 生发 展 中 的 作用 。 

(=) NIH 表 观 基 因 组 路 线 图 计划 (RoadMap Initiative) 

NIH 表 观 基 因 组 路 线 图 的 目的 是 以 人 类 胚胎 干细胞 为 中 心 开 发 广泛 的 表 观 基因 组 网 谱 
以 及 开发 新 的 工具 用 于 分 析 这 些 数据 ,解决 人 类 健康 和 疾病 的 表 观 遗传 学 研究 中 遇 到 的 各 
种 问题 。 该 表 观 基因 组 学 项 目的 目标 是 : 四 创建 国际 化 的 表 观 基因 组 研究 协会 ; QT ARS 
准 的 表 观 基因 组 学 研究 平台 、 软 件 以 及 研究 标准 ; 号 实施 规范 性 规则 评估 表 观 基因 组 的 改 
变 ; (@ 开 发 新 的 技术 用 于 单 细 胞 的 表 观 基因 组 分 析 及 活体 组 织 表 观 遗 传 活性 的 图 像 ; OF 
立 一 个 公共 的 数据 资源 加 快 表 观 基因 组 数据 及 方法 的 应 用 。 这 个 计划 已 经 成 功 的 应 用 在 单 
碱 基 水 平 胚胎 干细胞 和 分 化 的 成 纤维 细胞 的 甲 基 化 图 谱 的 绘制 和 分 析 。 


(四 ) 国际 人 类 表 观 基因 组 协会 (international human epigenome consortium, IHEC) 
IHEC 是 从 2010 年 开始 发 起 ,目的 是 产生 1000 个 人 类 和 非 人 类 的 参考 表 观 基因 组 图 谱 ， 
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图 谱 广泛 涉及 各 种 组 织 和 细胞 .干细胞 .环境 和 疾病 (包括 癌症 ) 状态 下 表 观 基因 组 图 谱 的 
大 量 数据 。 该 协会 要 建立 一 个 表 观 基因 组 研究 的 公共 交流 平台 ,如 培育 表 观 基因 组 研究 团 
体 、 组 织 各 种 学 术 会 议 、 为 低 年 资 的 研究 者 搭建 研究 平台 以 及 为 外 界 人 士 建 立 普及 性 网 站 等 
TBs 








二 环境 表 观 基因 组 与 人 类 疾病 >>. 


暴露 在 有 害 物质 的 环境 里 会 导致 表 观 遗传 的 改变 , 随 厦 发 育 中 哺乳 动物 表 观 基因 组 程 
序 的 变化 , 表 观 遗传 进程 适应 包括 环境 、 饮 食 甚 至 是 行为 等 外 在 因素 的 变化 。 这 种 可 塑性 被 
认为 是 生物 体 迅速 响应 和 适应 外 界 刺激 的 反映 ,但 也 赋予 生物 体 甚 至 是 它们 的 后 代 记 忆 的 
能 力 ( 如 果 这 样 的 刺激 接触 是 在 成 年 时 接触 到 的 )。 最 近 的 哺乳 动物 系统 研究 提供 了 这 个 与 
遗传 的 新 达尔 文理 念 相对 的 亚 稳 态 的 明确 例子 ,特别 是 大 量 证 据 表 明 胎 儿 所 处 的 环境 影响 
表 观 遗传 进程 导致 成 长 过 程 中 对 慢性 疾病 易 感 性 的 增加 。 这 些 结果 对 于 人 类 健康 有 者 重大 
影响 且 提 供 人 类 表 观 基因 组 图 谱 绘制 的 进一步 的 推动 力 。 

双 酚 A 诱 导 的 胎儿 表 观 基因 组 中 低 甲 基 化 能 够 通过 孕妇 膳食 补充 而 使 甲 基 供 体 被 消 
除 , 表 明 饮 食 的 变化 可 以 抵消 环境 毒物 对 于 发 育 中 的 胎儿 的 潜在 有 害 影响 。 通 过 怀 季 和 断 
奶 期 间 改 变 孕 妇 营养 的 模仿 人 类 病理 的 动物 模型 对 于 染色 质 的 表 观 遗传 修饰 和 后 代表 型 的 
后 续 影 响 一 直 表现 出 连续 的 显著 反应 。 例 如 ,子宫 胎盘 功能 不 全 能 降低 后 代 肾 脏 的 DNMTI 
活性 ,造成 p53 启动 子 的 低 甲 基 化 和 p53 表达 的 增加 ,有 助 于 提高 p53- 介 导 的 细胞 汕 亡 从 而 降 
低 肾 小 球 数 且 引 起 高 血压 。 产 妇 高 脂肪 的 饮食 有 利于 增加 组 和 蛋 日 H3 乙 酰 化 和 降低 组 和 日 
去 乙酰 化 活性 增加 ,和 胎儿 脂 质 代谢 障 碍 代谢 相关 基因 表达 的 增加 相 一 致 。 这 些 和 其 余 类 
似 的 研究 明确 表示 产妇 营养 环境 能 显著 影响 胎儿 表 观 基因 组 ,直接 有 利于 后 代 的 健康 。 

尽管 产妇 营养 对 于 子宫 内 胚胎 发 育 的 表 观 遗传 学 修饰 有 作用 ,母体 的 行为 能 改变 新 生 
儿 的 基因 表达 的 表 观 遗传 模式 ,一 旦 建立 ,会 坚持 到 成 年 。 综 上 ,这 些 人 研究 的 结果 叶 致 了 由 
生物 体 在 发 育 的 特别 脆弱 或 是 表 观 遗传 不 稳定 时 期 由 环境 引起 的 表 观 遗传 修饰 参与 人 类 疾 
病 的 病原 学 ,在 这 些 关 键 的 发 育 窗口 处 这 可 能 由 膳食 补充 轻而易举 地 预防 。 


三 、 人 类 的 表 观 基因 组 关联 研究 >> 


人 类 复杂 疾病 的 遗传 和 非 遗 传 决 定 因素 是 生物 学 研究 的 一 个 重大 挑战 。 最 近 几 年 ， 
GWAS 已 经 发 现 超 过 150 种 疾病 的 多 于 800 个 相关 SNP 和 其 他 特征 。 虽 然 对 于 人 类 复杂 疾病 
的 完全 遗传 基础 还 是 未 知 的 ,但 重新 排序 外 显 子 和 最 后 的 全 基因 组 分 析 有 助 于 识别 大 多 
数 致 病 的 遗传 变异 。 然 而 ,现在 发 现 非 遗传 变异 ,包括 表 观 遗传 修饰 的 因素 ,能 够 对 复杂 
疾病 的 病原 学 研究 及 发 展 提供 帮助 。 因 此 在 2008 年 表 观 基因 组 关联 分 析 ( epigenome-wide 
association study, EWAS ) 第 一 次 被 提出 。 由 于 DNA 甲 基 化 检测 技术 的 成 熟 ,使 EWAS 研 究 成 
为 可 能 。 

目前 表 观 遗传 学 标记 的 完整 图 谱 还 不 是 很 清楚 ,但 是 人 们 推测 这 个 数据 可 能 是 巨大 的 ， 
光 二 倍 体 人 类 表 观 基因 组 包括 >108Cs( 其 中 >107 是 CpGs ) 并 且 >108 组 和 蛋白 尾部 有 可 能 发 生 
共 价 修饰 。 在 一 个 单独 CpG 位 点 上 的 DNAm 变 异 ,被 认为 是 一 个 甲 基 化 变异 位 点 ( methylation 
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variable positions, MVP ), 可 以 被 认为 是 一 个 SNP 的 表 观 遗传 学 等 价 物 。 在 复杂 疾病 中 DNAm 
变异 的 角色 ,已 经 大 体 上 在 癌症 中 有 了 探索 ,可 以 被 看 作 是 早期 EWAS 人 研究 。 这 些 人 研究 中 发 
现 ,癌症 发 展 和 CGIs 上 DNAm 的 增加 、 印 记 缺 失 和 表 观 遗传 重复 元 件 的 重组 有 关 , 尤 其 是 微 
卫星 DNA 上 DNAm 的 缺失 。 糖 尿 病 或 者 目 身 免疫 性 疾病 中 表 观 遗传 学 成 分 包括 以 下 方面 。 
第 一 ,任何 复杂 疾病 的 同 卵 双胞胎 的 一 致 性 是 几乎 从 来 没有 100%。 最 近 , 系统 性 红斑 狼疮 
和 自 闭 症 不 一 致 的 同 卵 双胞胎 的 小 规模 EWASs, 已 经 发 现 同 卵 双 胞 胎 内 的 疾病 相关 的 表 观 
遗传 差异 。 第 二 , 几 个 复杂 疾病 的 发 生 率 ,例如 1 型 糖尿 病 , 在 一 般 人 群 中 上 升 ,并 且 在 流动 
人 口中 频繁 变异 ,暗示 了 非 遗 传 因素 的 一 个 角色 。 第 三 ,流行 病 学 证 据说 明 一 个 次 优 的 子宫 
内 或 者 儿童 早期 环境 ,能 够 对 成 年 期 疾病 的 结果 有 影响 (例如 2 型 糖尿 病 ), 这 个 现象 术语 叫 
做 “发 育 重 编程 developmental reprogramming ) o 当前 ,在 子宫 环境 中 分 子 标记 主要 的 候选 
是 表 观 遗传 学 修饰 ,包括 DNAm。 

潜在 的 基因 型 影响 表 观 遗传 变异 ,如 同 最 近 几 个 人 研究 论证 的 。 位 点 隐匿 的 遗传 变异 ， 
影响 甲 基 化 状态 ,被 称 做 甲 基 化 数量 性 状 位 点 ( methQTLs )。 在 大 多 数 methQTLs 中 , cis- 
genotype 的 相关 是 最 显著 的 。 在 trans 中 ,有 一 些 证 据 表 明 , 遗 传 变异 也 能 够 影响 表 观 遗传 状 
态 , 但 是 这 似乎 不 像 cis-effects 那 样 普 志 。 要 重点 注意 的 是 ,大 多 数 前 人 研究 中 ,遗传 变异 的 
真正 原因 是 未 明确 识别 出 来 的 ,并 且 大 多 数 meQTLs 不 是 通过 严格 cis-genotype 和 epigenotype 
一 对 一 的 相关 识别 出 来 的 ; 而 是 ,一 种 特殊 的 基因 形成 一 个 甲 基 化 增长 的 可 能 性 。Feinberg 
和 Trizarry 最 近 已 经 讨论 了 在 鼠 和 人 类 基因 组 中 遗传 变异 的 证 据 ,不 改变 平均 表 型 but rather 
表 型 的 的 变异 性 ; 这 可 能 通过 异 变 的 甲 基 化 区 域 ( VMRs ) 被 表 观 遗传 学 介 导 。MethQTL 的 
存在 为 整合 GWASs 和 EWASs, 来 发 现 基因 型 通过 表 观 遗传 变异 发 挥 它们 的 功能 ,提供 一 个 强 
有 力 的 论据 。 

这 些 methQTLs 也 能 够 影响 等 位 基因 特异 性 甲 基 化 (ASM )。 关 于 这 点 ,这 种 稳 态 的 甲 基 
化 水 平 在 相同 细胞 中 两 个 等 位 基因 上 不 同 。 然 而 , ASM 也 能 够 发 生 在 一 些 缺 乏 任 意 特异 的 
基因 型 一 一 表 观 遗传 型 相关 之 中 。 例 如 ,潜在 的 印记 、X 染 色 体 失 活 和 随机 单 等 位 基因 甲 基 
化 是 ,不 由 甲 基 化 和 非 甲 基 化 等 位 基因 之 间 洪 在 的 基因 型 差异 引起 的 ASM 的 全 部 实例 。 

因此 一 个 细胞 的 表 观 遗传 组 是 高 度 动态 的 , 受 一 种 复杂 的 遗传 和 环境 相互 影响 所 文 配 。 
正常 细胞 功能 依赖 于 表 观 遗传 自动 调节 功能 维持 ,这 在 许多 表 观 遗传 扰动 和 人 类 疾病 之 间 
相关 报道 中 突出 显示 ,尤其 是 癌症 。 
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应 用 实例 : 用 于 疾病 的 风险 预测 诊断、 预后 
及 治疗 的 表 观 基因 组 数据 分 析 


Section 6 Application examples: Analysis of epigenome data for risk 
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经 典 的 遗传 学 不 足以 解释 表 型 的 多 变性 ,也 不 能 解释 相同 的 DNA 序 列 、 同 卵 双胞胎 、 克 
隆 动物 各 目 之 间 存 在 的 表 型 差异 和 不 同 的 患 病情 况 。 表 观 遗 传 学 对 这 些 现象 提供 了 部 分 
解释 。DNA 甲 基 化 是 目前 人 们 了 解 最 多 的 表 观 遗传 标记 。 最 开始 发 现 了 人 类 肿瘤 中 DNA 
的 整体 低 甲 基 化 ,后 来 又 发 现 了 高 甲 基 化 的 抑 癌 基因 ,最 近 , 又 发 现 由 DNA 甲 基 化 导致 的 
microRNA 基因 的 失 活 。 

此 外 ,最 近 的 人 研究 也 发 现 了 疾病 状态 下 异 背 的 组 蛋白 修饰 模式 ,在 人 类 肿瘤 中 ,组 蛋白 
H4 修 饰 呈 现 单 乙 酰 化 和 三 甲 基 化 的 缺失 ,这 些 变化 发 生 在 早期 且 在 肿瘤 发 生 过 程 中 不 断 积 
索 , 而 且 组 集 日 修饰 酶 序列 的 表达 量 可 以 用 于 分 类 癌症 。DNA 甲 基 化 和 组 蛋白 修饰 有 潜在 
的 临床 用 途 。DNA 高 甲 基 化 作为 癌症 一 个 标记 ,可 以 在 所 有 类 型 的 体液 和 活体 标本 中 检测 
到 。DNA 甲 基 化 和 组 绰 白 修饰 是 可 逆 的 ,因此 可 以 通过 药物 重新 激活 被 沉默 的 抑 癌 基因 或 
者 抑制 失控 的 致癌 基因 的 表达 。 

有 人 提出 应 用 与 特定 基因 局 动 子 结合 的 转录 因子 来 开发 表 观 特异 的 治疗 药物 。 这 些 表 
观 遗 传 调控 机 制 的 阐明 及 疾病 诊断 及 治疗 方面 的 尝试 ,促使 人 们 更 加 深入 地 研究 表 观 遗传 
修饰 在 预测 诊断、 预后 以 及 治疗 疾病 方面 的 作用 。 下 面 介绍 这 些 研究 中 两 个 典型 的 实例 ， 
以 期 促进 国内 疾病 表 观 遗传 学 的 不 断 发 展 。 


实例 1 人 类 结肠 癌 甲 基 化 组 差异 甲 基 化 分 析 


人 们 已 经 知道 净 症 中 异常 的 DNA 甲 基 化 的 存在 ,包括 致癌 基因 的 低 甲 基 化 和 肿瘤 抑 
制 基因 的 高 甲 基 化 。 然 而 ,大 多 数 癌 症 甲 基 化 研究 认为 功能 上 重要 的 甲 基 化 发 生 在 启动 子 
区 域 , 奖 症 中 的 DNA 甲 基 化 改变 多 发 生 在 CpG 岛 。 但 还 没有 理解 全 基因 组 癌症 和 正常 分 化 
中 DNA 甲 基 化 缺失 和 获得 的 关系 。 在 这 些 实验 中 ,人 们 关注 三 个 关键 的 问题 。 第 一 ,不 同 
组 织 类 型 的 DNA 甲 基 化 差异 发 生 在 哪儿 ? 该 研究 采用 一 个 全 基因 组 的 方法 -基于 芯片 的 
高 通 量 的 相对 甲 基 化 分 析 ( comprehensive high-throughput array-based relative methylation, 
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CHARM ), 从 5 个 实验 (个 体 ) 中 选用 三 个 正常 组 织 类 型 代表 三 个 胚层 一 肝 ( 内 胚层 ), 脾 脏 ( 中 
胚层 ), 脑 (外 胚层 )。 不同 于 之 前 组 织 中 甲 基 化 的 研究 ,该 研究 是 全 基因 组 的 ,而 且 组 织 来 自 
相同 的 个 体 , 可 以 控制 个 体 间 差 异 的 可 能 性 。 第 二 ,癌症 中 DNA 甲 基 化 改变 发 生 在 哪儿 ? 低 
甲 基 化 和 高 甲 基 化 之 间 的 平衡 是 什么 ”基于 这 个 目的 ,该 研究 检验 13 个 结肠 癌 和 相应 的 正 
浓 黏 膜 。 第 三 ,这 些 甲 基 化 变化 的 功能 作用 是 什么 ? 为 此 ,该 研究 进行 小 鼠 组织 甲 基 化 和 表 
达 分 析 的 比较 表 观 基因 组 研究 。 

该 研究 通过 比较 每 对 组 织 平 均 M 值 的 差异 ( A MO 定量 来 表示 差异 甲 基 化 ,并 发 现 了 识 
别 出 16 379 个 组 织 差异 甲 基 化 区 域 (T_-DMRs ), 大约 76% 的 T_-DMRs 定 位 于 CpG 岛 区 域 2kb 的 
位 置 ,定义 为 CpG 岛 边缘 ; 男 外 分 析 同 一 个 体 的 13 个 结肠 癌 和 匹配 的 正常 黏膜 的 DNA 甲 基 
化 ,识别 了 2707 个 在 癌症 中 显示 差异 甲 基 化 的 区 域 ( C-DMRs ), 昌 发现 多 数 结肠 癌 甲 基 化 改 
变 不 发 生 在 启动 子 区域 , 也 不 在 CpG 岛 ,而 也 在 CpG 岛 边缘 (图 11-12 )。 
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来 源 于 : Irizarry RA .The human colon cancer methy lome shows similar hypo- 
and hypermethy lation at concerved tissue-specific Gp G island shores. ( 2009 ) Nat 
Genet.2009 ; 41 : 178-186. 
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甲 基 化 ,研究 者 分 析 了 来 自 相 同样 本 的 $ 个 大 脑 和 肝脏 的 和 4 个 结肠 癌 和 正常 黏膜 组 织 的 基 
因 表达 。 所 有 的 样本 来 自 基 因 组 甲 基 化 分 析 数 据 。T-DMRs 甲 基 化 和 差异 基因 表达 显示 强 
的 道 相 关 ( 图 11-13 ), 即 使 这 些 DMRs 不 在 CpG 岛 而 是 在 CpG 岛 边 缘 。 尽 管 C-DMRs 的 数量 比 
T-DMRs 较 少 ,但 也 显示 了 与 基因 表达 差异 的 显著 关联 。 这 些 基因 表达 和 CpG 岛 边 绿 甲 基 化 
之 间 的 功能 关联 暗示 CpG 岛 边缘 具有 调控 功能 的 可 能 性 。 
| 由 于 C-DMRs 和 T-DMRs 都 定位 于 CpG 岛 shores ,研究 者 又 研究 了 它们 是 否定 位 于 相同 的 
位 置 ,惊奇 地 发 现 C-DMRs 与 T-DMRs 存 在 显著 地 位 置 重合 ( 4596-6596 )。C-DMRs 和 T-DMRs 
的 关联 是 如 此 显著 ,用 C-DMRs 的 平均 M 值 对 大 脑 ,肝脏 和 脾脏 进行 非 监 督察 类 ,能 很 好 区 
分 这 些 组 织 (图 11-14 )。GO 功 能 富 集 分 析 发 现 C-DMRs 富 集 发 育 和 多 能 性 相关 的 基因 。 因 
此 癌症 特异 DNA 甲 基 化 主要 涉及 组 织 间 DNA 甲 基 化 变化 的 相同 位 点 ,尤其 是 与 发 育 相 关 
的 基因 ,这 一 结果 表明 表 观 遗传 改变 影响 组 织 特异 分 化 是 表 观 遗传 改变 引发 总 症 的 主要 
机 人 制 | 。 
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图 11-13 差异 甲 基 化 与 差异 表达 
XJT: Irizarry RA .The human colon cancer methy lome shows similar hypo—and hypermethy 
lation at concerved tissue-specific Gp G island shores. ( 2009 ) Nat Genet.2009 ; 41 : 178-186. 
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图 11-14 C-DMR ? X 4E 78 2 X- 2x Ja y VLA GE AR 
来 源 于 : Irizarry RA .The human colon cancer methy lome shows similar hypo-and hypermethy lation 
at concerved tissue-specific Gp G island shores. ( 2009 ) Nat Genet.2009 ; 41 : 178-186. 


第 十 一 章 “ 计 算 表 观 遗 传 学 493 一 
CHAPTER 11 COMPUTATIONAL EPIGENETICS 

















实例 2 ”基于 加 权 和 蛋白 质 互 作 网 络 优选 癌症 相关 甲 基 化 异常 基因 


网 络 理论 为 系统 的 研究 疾病 提供 了 一 个 便利 的 平台 。 基 因 间 复杂 的 关系 能 够 通过 网 络 
理论 清晰 的 呈现 出 来 。 基 于 网 络 理论 ,结合 表 观 遗传 特征 和 遗传 特征 ,识别 癌症 中 发 生 甲 基 
化 异常 的 基因 ,可 能 作为 癌症 诊断 和 预后 的 生物 学 标记 。 该 研究 DNA 甲 基 化 以 及 蛋白质 互 
作 构 建 了 加 权 和 蛋白 质 互 作 网 络 ,并 获取 癌症 相关 子 网 络 ,识别 潜在 的 癌症 相关 的 甲 基 化 异常 
基因 。 在 这 个 研究 中 ,人 们 同样 关注 三 个 主要 的 问题 。 第 一 ,构建 的 加 权 蛋 白质 互 作 网 络 以 
及 癌症 相关 子 网 络 具 有 何 种 特点 ,以 及 它们 之 间 有 何 差异 。 瘤 症 相 关子 网 络 是 和 否 具有 实际 
的 意义 。 第 二 ,优选 的 基因 具有 何 种 生物 学 功能 ,是 否 能 够 在 癌症 中 发 生 甲 基 化 的 异常 ,并 
影 啊 癌症 的 发 生 及 发 展 。 第 三 ,优选 的 基因 是 否 能 够 作为 癌症 诊断 和 预后 的 生物 学 标记 ,以 
及 药物 作用 反应 靶 点 。 该 研究 针对 以 上 问题 进行 了 分 析 。 

该 研究 利用 DNA 甲 基 化 特征 和 蛋白质 互 作 特征 构建 了 加 权 人 类 蛋白质 互 作 网 络 
( WHPN ), 并 通过 种 子 基因 集 在 WHPN 中 获得 了 一 个 癌症 相关 的 子 网 络 ( CASN ) (图 11-15 )。 
这 两 个 网 络 的 拓扑 特征 被 比较 分 析 , 包 括 网 络 的 度 , 聚 类 系数 和 平均 路 径 长 度 ,结果 表明 
CASN 有 比 WHPN 更 加 紧密 的 网 络 结构 ,并 显著 于 随机 情况 。 通 常 认为 在 对 相似 疾病 表 型 有 
贡献 的 突变 的 重 特 质 之 间 经 党 发 生 直接 的 或 者 间接 地 互 作 。 癌 症 被 认为 是 一 些 相 关 通 路 的 
失调 引起 的 结果 ,因此 如 果 一 个 基因 在 PPI 网 络 中 与 癌症 基因 接近 , 则 认为 它 更 有 可 能 参与 
癌症 的 一 系列 事件 。 而 子 网 络 中 的 基因 都 是 与 甲 基 化 异常 癌症 基因 相关 的 基因 ,这些 基因 
与 种 子 基因 一 样 有 可 能 参与 相同 或 相似 的 生物 学 过 程 ,因而 在 癌症 中 可 能 同样 发 生 甲 基 化 
水 平 的 改变 。 

该 研究 利用 邻接 加 权 规 则 在 CASN 网 络 中 识别 了 154 个 洪 在 的 癌症 相关 甲 基 化 异常 基 
D]. 这 些 基因 主要 参与 调控 有 关 调 控 细 胞 凋 亡 及 程序 性 死亡 的 生物 学 过 程 和 pS3 signaling 
pathway fil Wnt signaling pathway 等 癌症 相关 通路 。 这 些 结果 表明 这 些 基 因 可 能 在 癌症 相关 的 





图 11-15 WwWHPN 网 络 和 CASN 网 络 
来 源 于 : Liu H .Priontizing cancer-related genes with aberrant methylation based on a weighted 
protein-protein interaction network.BMC Syst Biol.2011:155-158. 
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该 研究 通过 搜索 PubMed 评 估 了 优选 基因 与 癌症 的 关系 。 结 果 发 现 其 中 43 个 基因 在 发 
表 的 文献 中 与 各 种 瘤 症 以 及 甲 基 化 异常 相关 ,其 中 10 个 基因 被 报道 在 癌症 中 会 发 生 甲 基 化 
的 异常 现象 ( 表 11-5 )。 然 后 通过 对 PubMed 目 动 化 的 搜索 以 及 手工 校对 ,发 现 27 个 优选 基因 
能 够 作为 癌症 以 及 其 他 复杂 疾病 的 诊断 标记 ,20 个 优选 基因 能 够 作为 预后 标记 。 最 终 ,将 优 
选 基因 匹配 DrugBank 药 物 标 点 列表 ,发 现 31 个 优选 基因 能 够 作为 药物 反应 的 应 答 靶 点 。 这 
些 结 果 表 明 优 选 基 因 可 能 在 净 症 中 发 生 甲 基 化 异常 ,导致 基因 表达 的 活化 或 抑制 ,作用 于 癌 
症 的 发 生 以 及 发 展 ,是 瘤 症 潜在 的 诊断 和 预后 标记 。 


X11-5 通过 PubMed 文 献 证 实 的 疾病 诊断 预后 标记 基因 及 潜在 的 药物 靶 点 基因 


基因 名 Entrez 基 因 编 号 诊断 标记 预后 标记 药物 靶 点 
CREBBP 1387 全 © 
EP300 2033 A * 
HIFIA 3091 * © 
PRMTI 3276 A * © 
PML 5371 * 
med | 5469 © 
tp63 8626 A E 
PRKCDBP 112 464 A 
MANEAL 149 175 
Rasef 158 158 


jk. 数据 来 源 : Liu H .Priontizing cancer-related genes with aberrant methylation based on a 
weighted protein-protein interaction network.BMC Syst Biol.2011:155-158. 


(K 内 刘 洪 波 ) 
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约 物 生物 信息 学 


PHARMACOBIOINFORMATICS: 
REVOLUTIONIZING DRUG DISCOVERY 
RESEARCH 


传统 的 药物 研发 模式 盲目 , 耗 时 耗资 巨大 ,成 功率 低 ,甚至 有 些 药物 上 市 后 由 于 严 
重 不 良 反 应 而 惨遭 淘汰 。 随 着 基因 组 学 、 转 录 组 学 蛋白 组 学 \ 代 谢 组 字 和 变异 组 学 等 
组 学 的 攻 勃 发 展 ,产生 了 大 量 的 高 通 量 数据 资源 以 及 相应 的 分 析 技 术 , 其 成 果 不 仅 给 
人 类 认识 自身 本 质 和 疾病 发 生机 制 提供 了 新 的 机 遇 , 同 时 还 为 制药 工业 带 来 了 前 所 未 
有 的 机 会 和 全 新 的 药物 研发 理念 

在 药物 的 研发 过 程 中 ,药物 生物 信息 学 的 技术 和 手段 可 以 明确 靶 点 早期 预测 药 
物 的 成 药性 ,并 预测 药物 适合 人 群 ,体现 了 药物 生物 信息 学 在 药物 研发 领域 的 巨大 优 
势 , 使 之 成 为 后 基因 组 时 代 最 引 人 瞩 目 发 展 最 迅速 的 学 科 之 一 。2003 年 美国 FDA 发 行 
J "Draft guidance for Industry Pharmacogenomic Data Submission” ,我 国 也 在 2007 年 首次 
RE E Tet MMA T 86378 H. 

药物 生物 信息 学 是 一 个 将 信息 学 和 计算 机 科学 的 原理 和 技术 应 用 于 药物 发 现 和 
药物 防治 的 一 门 新 学 科 。 它 整合 了 多 学 科 的 原理 和 方法 如 生物 信息 学 、 化 学 信息 学 
化 学 基因 组 学 以 及 其 他 发 展 完善 的 学 科 , 如 药理 学 、 药 物化 学 、 理 论 化 学 和 药学 实践 
等 ,从 系统 和 全 局 的 角度 为 制药 行业 提供 理论 与 技术 工具 ,这 是 传统 药学 无 法 比拟 的 . 

尽管 药物 生物 信息 学 在 药物 研发 的 各 个 阶段 体现 了 极 大 优势 ,但 由 于 本 书 篇 幅 所 
限 , 本 章 只 向 大 家 介绍 三 方面 内 容 : 药学 相关 信息 资源 ; 生物 信息 学 方法 鉴别 和 了 验证 药 
物 靶 标 ; 个 性 化 给 药 基础 一 一 药物 基因 组 学 。 
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一 、 药 物 综合 信息 数据 库 》》 


DrugBank( http: //www.drugbank.ca/ ) 为 综合 性 免费 药物 信息 资源 , 履 盖 大 量 药 物 及 其 
靶 标 相关 信息 。 和 截止 到 2012 年 3 月 ,数据 库 中 包含 有 6711 条 药物 的 相关 条 目 信 息 , 其 中 包括 
FDA 批 准 的 1441 种 小 分 子 药 物 、134 种 重 晶 质 和 多 肽 类 生物 技术 药物 84 种 营养 制品 和 5084 
种 处 于 实验 研究 阶段 的 药物 。 除 此 之 外 ,数据 库 还 提供 了 4231 条 非 元 余 的 与 药物 相关 的 和 蛋 
日 质 序 列 信息 (如 药物 的 作用 靶 标 .代谢 酶 .转运 蛋白 .载体 )。 每 种 药物 提供 了 150 多 项 信息 ， 
包括 药物 名 称 、 化 党 绩 构 . 重 日 和 DNA 序 列 以 及 药理 学 .药物 经 济 学 .药物 间 相 互 作 用 、. 靶 点 、 
相关 的 酶 , 单 核 车 酸 多 态 性 药物 副 反 应 和 相关 文献 的 链接 等 。 

DrugBank 数 据 库 的 设计 者 之 一 ， David Wishart 博 士 认 为 DrugBank 数 据 库 是 目前 唯一 一 
个 融合 了 生物 信息 学 和 化 学 信息 学 知识 的 数据 库 , 是 将 药物 的 详细 信息 与 药物 广泛 作用 的 
靶 标 信息 的 完美 结合 。 

DrugBank 数 据 库 提供 多 种 浏览 .查询 的 方式 ,便于 访问 者 对 相关 知识 进行 查询 和 了 解 。 
图 12-1 是 DrugBank 数 据 库 的 主 界面 。 


DrugBank 


Search: | Search | [Agvenged! 










Search 


The DrugBank database is a unique bioinformatics and cheminformatics resource that 
combines detailed drug (i.e. chemical, pharmacological and pharmaceutical) data with 
comprehensive drug target (i.e. sequence, structure, and pathway) information. The database 
contains nearly 4800 drug entnes including >1,350 FDA-approved small molecule drugs. 123 
FDA-approved biotech (protein/peptide) drugs, 71 nutraceuticals and 53.243 experimental 
drugs. Additionally, more than 2,500 non-redundant protein (i.e. drug target) sequences are 
linked to these FDA approved drug entries. Each DrugCard entry contains more than 100 data 
fields with half of the information being devoted to — data and the other half 
devoted to drug target or protein data 


DrugBank is supported by David Wishart, Departments of Computing Science & Biological 
Sciences. University of Alberta 





图 12-1 Drugbank 主 页 界面 
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二 ,与 药物 靶 点 发 现 相关 数据 库 >> 


(一 ) 疾病 相关 的 基因 数据 库 


目前 ,已 有 一 些 数 据 库存 储 了 与 疾病 相关 的 基因 信息 ,方便 研究 人 员 对 相关 基因 或 蛋 
白质 进行 查询 和 比较 。 与 人 类 疾病 相关 的 基因 以 及 基因 毅 除 时 的 异常 情况 存储 在 online 
mendelian inheritance in man( OMIM, http: //www.ncbi.nlm.nih.gov/omim/ ), entrez gene ( http: // 
www.ncbi.nlm.nih.gov/gene/ ), the human gene mutation ( http: //www.hgmd.cf.ac.uk/ac/index. 
php ), catalogue of somatic mutations in cancer ( COSMIC, http: //www.sanger.ac.uk/genetics/CGP/ 
cosmic/ ) 和 cancer gene census ( http: //www.sanger.ac.uk/genetics/CGP/Census/ ) 等 数据 库 中 。 
其 中 , OMIM 数 据 库 是 分 子 遗传 学 领域 最 重要 的 生物 信息 学 数据 库 之 一 ,是 人 类 基因 和 遗传 
性 疾病 的 电子 目录 ,提供 疾病 与 基因 ,文献 .序列 记录 .染色体 定 位 及 相关 数据 库 的 链接 等 内 
容 。 该 数据 库 可 以 通过 ENTREZ 进 行 搜索 ,并 且 利 用 “limit” 选项 限制 所 搜索 的 染色 体位 置 
或 类 别 等 内 容 。COSMIC 数 据 库存 储 了 癌症 相关 的 候选 基因 ,提供 体内 基因 殴 除 信息 以 及 人 
类 癌症 的 相关 细节 。cancer gene census 数 据 库 对 癌症 相关 的 基因 进行 分 类 ,这 些 基因 在 僻 除 
时 与 癌症 表现 出 可 能 的 因果 关联 。 其 中 的 GeneRif 系 统 可 以 提供 与 疾病 高 度 相 关 基因 的 注 
释 信 息 。 此 外 ,基因 组 规模 的 关联 数据 库 .遗传 关联 数据 库 和 小 鼠 基 因 殴 除数 据 库 等 也 为 基 
因 查 询 提 供 了 丰富 的 注释 信息 。 


(Z) 疾病 相关 的 基因 芯片 数据 库 


基因 芯片 数据 是 药物 靶 标 发 现 的 重要 来 源 , 人 们 已 经 建立 了 一 些 专门 的 数据 库 用 于 存 
储 疾 病 相 关 的 基因 芯片 数据 。 gene expression omnibus( GEO, http: //www.ncbi.nlm.nih.gov/ 
geo! ) TEN ff fi i DL Fr BY FE UR JE ER ELE BE PEAS eS 
VI "Homosapiens" Fil "Cancer" 作为 关键 词 进行 查询 时 ,返回 了 350 个 数据 集 。2003 年 10 月 ， 
Daniel 等 建立 了 ONCOMINE 数据 库 ( http: //www.oncomine.org/ ), 专门 收集 癌症 相关 的 基因 
芯片 数据 集 ,提供 在 线 的 数据 挖掘 和 基因 组 规模 的 表达 分 析 。 在 ONCOMINE 数据 库 的 三 个 
版 本 中 ,包含 了 264 个 基因 表达 数据 集 , 超 过 2 万 个 癌症 组 织 和 正常 组 织 的 样本 数据 。 其 他 
基因 芯片 数据 库 包括 斯 坦 福 基因 芯片 数据 库 ( http: //genome—www5.stanford.edu/MicroArray/ 
SMD/ ), EBG Fr RIX lS FE http: //www.ebi.ac.uk/arrayexpress/ ), 以 及 MIT 癌症 基因 组 工程 
( http: //www.broad.mit.edu/cancer/ ) 等 。 


(=) 候选 靶 点 信息 资源 


治疗 靶 点 数据 库 ( therapeutic target database, TTD, http: //bidd.nus.edu.sg/group/cjttd/ ) 是 
一 个 免费 的 数据 库 , 覆 盖 了 2025 个 药物 靶 点 (包括 364 个 确认 靶 点 ,286 个 试验 阶段 靶 点 及 
1331 个 研究 靶 点 ) 及 靶 点 相关 疾病 和 信和 号 通路 ,同时 包含 17 816 个 药物 / 配 体 (包括 FDA 认 
可 药物 1540 种 ,临床 试验 阶段 药物 1423 种 ,实验 研究 阶段 药物 14 853 种 ; 其 中 有 小 分 子 药物 
14 170 种 , 反 义 核 酸 类 药物 652 种 ), 同 时 提供 链接 到 其 他 数据 库 , 以 方便 检索 重 日 功能 、 氨 基 
酸 序列 .三 维 结构 信息 , 配 体 结合 特性 .药物 结构 .治疗 应 用 等 内 容 。TTD 虽 然 设 计 目 的 是 专 
门 化 数据 库 , 但 是 实际 上 也 是 一 个 关于 药物 的 综合 性 数据 库 。 
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non-redundant databases( NRDB, http: //linux.mlst.net/nrdb/nrdb.htm/ ) Hi NCBI# s. ,数据 
A genpept ( genBank CDS 自 动 翻译 的 数据 库 )、 PDB 序 列 数据 库 、SWISS-PROT 数 据 库 等 ,是 
比较 完全 且 包 含 最 新 信息 的 重 日 质数 据 库 ,是 检索 药物 靶 点 的 主要 信息 来 源 。 实 际 上 NRDB 
中 仍然 有 一 些 见 余 信息 。 男 外 , NRDB 数 据 库 也 被 作为 NCBI 提 供 的 BLAST 算法 搜索 服务 时 
检索 的 默认 数据 库 。 

潜在 药物 靶 点 数据 库 ( potential drug target database, PDTD, http: Wwww.dddc.ac.cn/pdtd/ ) 
为 国内 建立 的 免费 药物 靶 点 数据 库 , 收 集 了 已 知 的 和 潜在 的 药物 靶 点 的 三 维 结构 数据 ,是 反 
向 对 接 筛选 候选 药物 靶 点 软件 浓 选 用 的 数据 库 之 一 。 此 数据 库 目 前 包括 1207 个 晶体 结构 数 
据 , 涵 盖 了 841 种 不 同 药物 靶 点 。 这 些 靶 点 按照 治疗 应 用 领域 和 靶 点 的 生物 化 学 性 质 分 成 十 
多 类 , 文 持 多 种 检索 方式 ,并 可 链接 到 其 他 数据 库 。 

和 集 日 质 信息 学 资源 ( protein-informatics-resource, PIR, http: //pir.georgetown.edu/ ), 该 数 
据 库 提供 通用 的 重 白 质 序 列 和 功能 数据 ,并 链接 到 UniProtKB( http: //www.uniprot.org/help/ 
uniprotkb ) 等 多 个 数据 库 。 此 数据 库 的 特色 是 可 提供 详细 全 面 的 重 晶 质 功能 分 类 数据 ,其 中 
包含 药物 靶 点 重 日 质 的 数据 。 


(四 ) 与 发 现 药 靶 相关 生物 学 功能 数据 库 


约 物 驾 标 通 凋 具 有 特定 的 生物 学 功能 ,分 析 基 因 的 分 子 类 型 (例如 酶 八 亚 细胞 定位 ( 例 
如 细胞 表面 ) 和 生物 学 通路 (例如 血管 新 生 ) 对 于 预测 潜在 药 靶 具有 重要 意义 。 基 因 本 体 论 
gene ontology( GO, http: //www.geneontology.org/ ) 和 京都 基因 与 基因 组 百科 全 书 数据 库 kyoto 
encyclopedia of genesand genomes pathways( KEGG, http: //www.genome.ad.jp/kegg/ ) 提供 了 多 个 
物种 中 基因 的 生物 学 功能 .定位 和 通路 信息 。 同 时 ,有 关 和 蛋白 质 相 互 作用 网 络 和 生物 学 通路 
的 数据 库 资 源 非常 丰富 ,如 database of interacting proteins( DIP, http: //dip.doe—mbi.ucla.edu/dip/ 
Main.cgi/ ), reactome ( http: //www.reactome.org/ReactomeGWT/entrypoint.html/ ), nature pathway 
interaction database( NCI, http: //pid.nci.nih.gov/ ), human protein reference database( HPRD, http: 
//hprd.org/ ) 和 Biocarta( http: //www.biocarta.com/ ) 等 ,更 多 的 数据 库 列 表 可 以 参考 http: /www. 
pathguide.org/。 此 外 ,有 些 数据 库 专 门 存储 生物 学 网 络 的 定量 数据 资源 ,例如 bioModels( http: 
Wwww.ebi.ac.uk/biomodels-main/ ) 和 JWS online( http: //jjj.biochem.sun.ac.za/database/ ) 数据 库 ， 
收集 了 各 种 化 学 反应 网 络 的 数学 模型 ,并 且 规 模 一 直 在 稳步 增加 。 


(E) 不 民 反 应 数据 库 


Side effect resource( SIDER, http: //sideeffects.embl.de/ ) 为 Zh ty AS B I HG PE BLS 
药物 和 副 反应 的 相关 信息 。 该 数据 库 包 含 了 888 种 药物 的 相关 条 目 信 息 (798 种 FDA 批 准 的 
约 物 和 90 种 非 FDA 批 准 的 药物 入 1450 种 不 同 的 不 民 反 应 和 62 269 个 药物 -不 恨 反 应 关系 对 . 

数据 库 采 用 文本 挖掘 的 方法 对 多 种 资源 的 数据 进行 整理 ,同时 给 出 了 药物 -不 恨 反应 对 
的 不 良 反 应 发 生 频 率 信息 。 数 据 库 将 不 良 反 应 的 发 生 率 分 成 以 下 几 个 等 级 : postmarketing 、 
rare ( «0.196 ) infrequent ( 0.1% to 1% ), frequent ( 196 to 100% ). 

用 户 可 从 数据 库 中 获得 以 下 信息 : 药物 相关 的 不 恨 反应 药物 化 学 结构 por Zu B SC 
标 . 可 产生 同 种 不 恨 反 应 的 药物 .具有 相同 不 恨 反 应 特征 的 药物 .人 和 群 服用 药物 产生 不 民 反 
应 的 概率 以 及 施用 安慰 剂 作为 对 照 组 时 产生 该 不 恨 反 应 的 概率 等 。 
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同时 ,从 search tool for interactions of chemicals ( STITCH, http: //stitch.embl.de/ ), PubChem 


( http: //pubchem.ncbi.nlm.nih.gov/ ), Wikipedia 和 Medpedia 中 都 可 以 获得 不 展 反应 以 及 药物 相 
关 药 理 作用 的 描述 信息 。 图 12-2 是 SIDER 数 据 库 的 主 界面 。 


Drug list About 


S | D E R ye SIDER contains information on marketed medicines and their recorded adverse drug re 


information is extracted from public documents and package inserts. The available informa 


Side Effect Resource side effect frequency, drug and side effect classifications as well as links to further infq 


example drug-target relations 





图 12-2 ”SIDER 主页 界面 


(六 ) 药物 相互 作用 查询 数据 库 


Cytochrome P450 database ( SuperCYP, http: //bioinformatics.charite.de/supereyp/ ), 是 基于 
细胞 色 系 P450 酶 来 分 析 药 物 间 的 相互 作用 的 数据 库 。 该 数据 库 收 录 了 1170 种 药物 的 信息 、 
2785 种 基于 细胞 色素 P450 酶 产生 的 药物 相互 作用 ,57 种 人 类 CYP 家 族 酶 的 信息 和 1200 个 等 


位 基因 信息 。 对 具有 相同 代谢 酶 的 药物 ,数据 库 会 提供 出 同类 替代 药 的 建议 。 图 12-3 为 数 
据 库 的 主页 面 。 


SuperC YP 





Cytochrome P450 database 


> Drug search 


+ eee This database contains about 1,170 drugs. 2.785 Cytochrome-Drug interactions and about 


> Chemotherapy 1.200 alleles 
> ATC tree 
CYP 
» CYP-drug interaction 
» Polymorphism 
> Alignments - 
> 3D structures 
» Browse 
> Phase2enzymes 
‘> Transporter 
> Prodrugs 
> Upload 
> Statistics 
> FAQs 
> Links 
> Contact 








图 12-3 SuperCYPAX JE - =H 
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数据 库 对 基于 CYP450 产 生 的 药物 相互 作用 分 为 五 种 情况 ,并 给 出 了 相关 的 用 药 建 
议 。 具 体 分 类 情况 如 图 12-4 所 示 : Dsubstrate—substrate ( 底 物 - 底 物 ) 关系 , 即 如 果 多 种 同 
为 CYP 同 一 代谢 酶 底 物 的 药物 联合 应 用 时 ,很 可 能 由 于 它们 之 间 对 酶 的 竞争 使 得 药物 代谢 
被 抑制 ,药物 会 在 组 织 器 官 中 停留 更 长 时 间 , 故 建议 需要 降低 药物 使 用 的 剂量 ; C)inhibitor- 
substrate( 换 制剂 - 底 物 ) 关系 ,建议 此 种 关系 药物 联合 用 药 时 ,要 降低 药物 的 使 用 剂量 ; 
G)inducer-substrate( 诱 导 剂 - 底 物 ) 关系 ,此 种 关系 药物 联合 用 药 时 ,因为 代谢 酶 被 激活 ， 
药物 排出 体外 会 加 快 , 故 建 议 增 加 药物 的 使 用 剂量 ; inducer-inducer( 诱 导 剂 -诱导 剂 ) 
关系 ,建议 此 种 关系 药物 联合 用 药 时 , 奉 想 达到 正常 治疗 效果 ,需要 增加 药物 的 使 用 剂量 ; 
(Sinhibitor-inhibitor( 抑 制剂- 抑制 剂 ) 关 系 , 两 个 代谢 酶 的 抑制 剂 联合 应 用 时 ,代谢 酶 的 活 
性 被 抑制 ,药物 在 体内 组 织带 官 的 存留 时 间 长 , 故 建议 降低 药物 的 使 用 剂量 ,避免 药物 蓄积 
产生 相关 的 不 民 反 应 。 





Substrate-Substrate Interaction 
Inhibitor-Substrate Interaction 
Inducer-Substrate Interaction 
Inhibitor-Inhibitor te Interaction 


Inducer—Inducer Interaction 


图 12-4 SuperCYP 数 据 库 中 药物 相互 作用 情况 分 类 


SuperCYP 数 据 库 中 分 别 用 s 标 识 substrate( 底 物 ), inh 标 识 inhibitor( 抑 制剂 ) 和 ind 标 识 
inducer( S STR] ) 在 碍 询 结 末 中 ,点 击 相关 的 标识 会 百 接 给 出 PUBMED 的 文献 来 源 链 接 , 方 
便 访 问 者 进行 查询 。 在 给 出 相关 蔡 代 药物 时 ,标志 为 绿色 的 药物 是 可 供 选 择 的 蔡 代 药物 。 


(七 ) 药物 基因 组 学 数据 库 


药物 基因 组 学 数据 库 (the pharmacogenetics and pharmacogenomics knowledge base， 
PharmGKB, http: //www.pharmgkb.org/ ), 是 基于 遗传 药理 学 .药物 遗传 学 和 药物 基因 组 学 知 
识 所 建立 起 来 的 ,主要 是 用 来 收集 分析 .记录 和 传播 遗传 药理 学 和 药物 基因 组 学 的 主要 数 
据 和 相关 知识 的 数据 库 , 所 以 它 是 药物 基因 组 学 的 代表 性 数据 库 。 图 12-5 是 PharmGKB 的 
主页 界面 。 

PharmGKB 数 据 库 从 单 核 苷 酸 基因 多 态 性 (SNP ), 临 床 的 药物 基因 组 相关 知识 .通路 信 
息 .药物 和 小 分 子 信息 ,药物 基因 组 学 相关 的 基因 信息 和 与 疾病 相关 的 药物 基因 组 学 信息 这 
六 方面 的 内 容 对 药物 基因 组 学 进行 了 描述 。 

UO 疾病 一 基因 一 药物 联通 图 

The connectivity map ( CMAP, http; //www.broad.mit.edu/cmap/ ), 是 应 用 全 基因 组 转录 谱 
系统 全 面 地 描述 生理 ,疾病 和 药物 诱导 等 生物 学 状态 ,以 GSEA( gene set enrichment analysis ) 
算法 提取 并 比较 这 些 生 物 学 状态 的 基因 表达 标识 ,将 相同 ( 似 ) 或 相反 功能 药物 .药物 运用 疾 
病 .药物 作 用 途径 ( 基因、 通路) 联系 起 来 。 
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HOME | PUBLICATION EED3ACK | SIGN IN | Search PharmGKB 
^ : : 
% PharmGKB Pharmacogenomics. Knowledge. Implementation. 
N The Pharmacogenomics Knowledgebase PharmGKB is a comprehensive resource that curates knowledge about the impact 


of genetic variation on drug response for clinicians and researchers. 


AboutUs * News & Events Projects Search > Download Help 





Search PharmGKB Submit 


What is the PharmGKB? 


Find out how we go from extraction of 
gene-drug relationships in the literature 
to implementation of pharmacogenomics 
in the clinic... 








CPIC Simvastatin/SLCO1B1 Guideline 





New VDR VIP Publication 
图 12-5 PharmGKB 数 据 库 的 主页 界面 


CMAP 数 据 库 的 构建 是 基于 联通 图 的 基本 假设 ,假设 药物 刺激 前 后 全 基因 组 范围 的 基因 
表达 都 将 会 发 生 改 变 , 这 种 改变 能 够 从 本 质 上 反映 生物 体系 统 对 药物 的 应 答 情 况 即 对 药物 
的 反应 状态 ,从 而 可 以 代表 药物 的 药理 活性 特征 。 这 种 描述 药物 特征 的 策略 从 药物 作用 本 
质 出 发 ,关注 分 子 水 平 的 变化 ,基于 全 基因 组 水 平 , 因 此 很 具有 系统 性 。 

图 12-6 举 例 描述 了 联通 图 的 基本 原理 。 用 基因 芯片 检测 某 未 知 功能 化 合 物 刺 激 前 后 生 
物体 (人 、 鼠 、 细 胞 系 ) 的 全 基因 组 表达 水 平 ,比较 刺激 前 后 的 表达 谱 水 平 ,采用 生物 信息 学 
方法 提取 基因 组 标识 。 ,将 差异 表达 基因 标识 录入 到 数据 库 的 查询 界面 中 ,数据 库 采 用 
GSEA 算 法 评价 此 标识 与 库 中 药物 标识 的 相似 性 ,输出 与 已 知 药 物 功能 相关 联 的 药物 ,作用 
越 相似 的 排序 越 靠 前 ,作用 越 相 反 的 排序 越 靠 后 ,从 而 推 知 已 知 药物 的 未 知 功能 。 在 图 12-6 
中 ,绿色 区 域 越 上 妆 的 药物 与 已 知 药物 的 作用 机 制 等 越 相 近 , 红 色 区 域 越 —m 
药物 作用 机 制 越 相 反 
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图 12-6 联通 图 的 基本 原理 
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CMAP 数 据 库 主要 用 于 发 现 共享 作用 机 制 和 生化 进程 的 小 分 子 ,疾病 和 药物 之 间 的 关联 
性 ,可 以 用 于 确认 药物 的 作用 机 制 \ 发 现 已 上 市 药物 的 其 他 作用 、 预 测 未知 作 用 机 制药 物 的 
机 制 \ 人 研究 疾病 的 生理 机 制 等 。 

图 12-7 是 CMAP 数 据 库 的 登陆 主 界面 ,该 数据 库 提供 相关 数据 信息 和 查询 结果 的 免费 
下 载 ,但 是 需要 注册 后 登陆 。 将 注册 的 用 户 名 和 密码 输入 后 进入 数据 库 主 界面 , 见 图 12-8。 











username: | 


password: 
email me my password | register as a new user 


图 12-7 CMAP 数 据 库 的 登陆 主 界面 


t} CONN ECTIVITY MAP 2 : 


: i > à; P 
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instances query results admin downloads help 


> quick query 


for signatures available locally as .grp files; results are 'temporary' 


> load signature 
upload and describe a signature 


> signature query 
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Section2 Bioinformatics—based approach to identify potential drug targets 


建立 系统 ,高效 的 药物 研发 创新 体系 是 后 基因 组 时 代 具 有 挑战 意义 的 任务 。 发 现 并 验 
证 药物 新 辑 标 是 研发 创新 药物 的 首要 工作 ,人 类 基因 组 计划 的 完成 推动 了 基因 组 学 ,蛋白 组 
学 和 代谢 组 学 的 发 展 , 为 寻找 药物 靶 标 带 来 了 新 的 机 遇 ,而 在 高 通 量 数据 分 析 方 面 显 示 巨 大 
优势 的 生物 信息 学 技术 已 成 为 从 庞大 的 组 学 数据 中 挖掘 药物 靶 标 信息 的 一 种 重要 手段 。 

在 药物 靶 标 发 现 的 过 程 中 ,生物 信息 学 方法 发 挥 了 不 可 替代 的 重要 的 作用 ,尤其 适用 于 
大 规模 多 组 学 数据 的 分 析 。 目 前 ,已 涌现 了 许多 与 疾病 相关 的 数据 库 资源 ,基于 生物 网 络 特 
人 征 \ 生 物 心 片 、 和 蛋白 质 组 代谢 组 数据 等 建立 了 多 种 生物 信息 学 方法 发 现 潜在 的 药物 对 标 ,并 
预测 服 标 可 药性 和 药物 副作用 。 

约 物 靶 标 是 指 体内 具有 药 效 功能 并 能 被 药物 作用 的 生物 大 分 子 , 如 某 些 和 蛋白质 和 核酸 
等 生物 大 分 了 于。 事先 确定 靶 癌 特定 疾病 有 关 的 靶 标 分 子 是 现代 新 药 开 发 的 基础 。 在 药物 发 
现 的 漫长 过 程 中 , 药 靶 发 现 是 非常 重要 的 一 个 限 速 步骤 。 药 靶 筛 选 和 功能 研究 是 发 现 特 异 
的 高 效 \ 低 毒性 药物 的 前 提 。 

臣 标 发 现 与 确证 的 一 般 流程 (图 12-9 ) 是 : 利用 基因 组 学 、 蛋 白质 组 学 以 及 生物 芯片 技 
术 等 获取 疾病 相关 的 生物 分 子 信息 ,并 进行 生物 信息 学 分 析 ; 然后 对 相关 的 生物 分 子 进行 功 







生物 信息 学 分 析 
功能 研究 
确定 候选 药物 靶 标 


PEERI ME 


图 12-9 Hwee & 3,— 45 ids 





505 





\ 506 第 十 二 章 ”药物 生物 信息 学 








Āe 


CHAPTER 12 PHARMACOBIOINFORMATICS : REVOLUTIONIZING DRUG DISCOVERY RESEARCH 


REWA , DA WAKE xe 23 DE A; 针对 候选 药物 作用 靶 标 ,设计 小 分 子 化 合 物 ,在 分 子 、 细 
胞 和 整体 动物 水 平 上 进行 药理 学 研究 ; 验证 靶 标 的 有 效 性 。 

常见 的 用 于 药 靶 发 现 的 实验 方法 包括 : 微生物 基因 组 学 差异 蛋白 质 组 学 、 磁 共振 
(MR ) 技 术 、 细 胞 忌 厂 技术 、RNAi 技 术 、 基 因 转 染 技 术 和 基因 敲 除 动物 等 。 随 着 组 学 数据 的 
积累 , 仅 赁 实验 方法 已 经 不 能 满足 高 通 量 大 规模 数据 分 析 的 需求 。 

在 药物 研发 过 程 中 ,生物 信息 学 方法 对 于 相关 数据 的 存储 、 分 析 和 处 理 ,以 及 如 何 有 效 
地 发 现 和 验证 新 的 药 靶 ,发挥 了 重要 的 作用 。 

本 下 主要 基于 疾病 相关 的 基因 数据 库 候选 药 靶 数 据 库 和 基因 芯片 数据 库 等 资源 基础 
上 ,讨论 基于 多 种 组 学 数据 进行 药物 靶 标 发 现 的 生物 信息 学 方法 ,如 基于 基因 组 .基因 表达 
谱 、 重 白质 组 \ 代 谢 组 的 方法 以 及 整合 多 组 学 数据 的 系统 生物 学 方法 ,最 后 描述 生物 信息 学 
方法 在 药物 靶 标 验证 方面 的 应 用 , 主要 是 预测 蛋白 质 可 药性 以 及 药物 副作用 。 


一 、 用 于 药 靶 发 现 的 生物 信息 学 方法 》》 
(一 ) 基因 组 方法 


丰 宦 的 基因 组 学 数据 为 药 靶 发 现 提供 了 基础 ,目前 已 有 多 种 方法 可 用 于 寻找 新 的 药物 
靶 标 。 其 中 ,最 第 用 的 方法 是 同 源 搜索 ,采用 序列 比 对 软件 寻找 候选 基因 与 已 知 癌症 基因 之 
间 的 序列 同 源 性 ,如 BLAST 或 基于 隐 马 尔 科 夫 的 HMMER 软 件 包 等 。 然 而 ,新 的 靶 标 与 已 知 
癌 钙 基因 的 序列 可 能 并 不 相似 。 因 此 ,有 必要 分 析 已 知 药 靶 中 更 为 普遍 的 结构 特征 ,如 信和 号 
肽 、 跨 膜 结构 域 或 重 白 激酶 域 ,此 类 生物 信息 学 工具 包括 预测 信号 肽 的 SignalP 和 预测 跨 膜 结 
构 域 的 TMHMM。 此 外 ,还 可 以 使 用 基因 预测 程序 从 人 类 基因 组 序列 中 预测 新 基因 ,寻找 全 
新 的 药物 靶 标 ,常用 的 程序 是 Genescan 和 Grail。 

通过 单 基 因 毅 除 实验 能 够 发 现 生 物体 中 的 必要 基因 ( essential gene ju 但 以 必要 基因 作 
为 癌症 治疗 的 靶 标 不 仅 能 杀 死 癌 细 胞 ,对 于 健康 细胞 也 可 能 是 致命 的 。 因 此 ,大 多 数 以 单 基 
因 作 为 靶 标 的 药物 治疗 是 失败 的 , 双 基 因 的 合成 致死 性 ( synthetic lethal ) 为 抗 癌 药 物 的 研究 
提供 了 新 的 前 景 。 给 定 一 个 癌症 相关 的 基因 ,如 果 该 基因 在 癌 细 胞 中 功能 缺失 或 者 功能 降 
低 ,那么 以 它 的 合成 致死 对 象 作 为 药 靶 就 能 构成 肿瘤 细胞 的 致死 条 件 ,同时 降低 对 健康 细胞 
的 损伤 。 目 前 , 仅 在 酵母 中 通过 大 规模 的 实验 建立 了 全 基因 组 的 合成 致死 网 络 。 通 过 同 源 
预测 等 方法 , Conde-Pueyo 等 重建 了 人 的 基因 合成 致死 网 络 ,为 抗 癌 研 究 中 候选 基因 驾 标 的 
盘 选 提供 依据 。 目 前 已 知 的 单 基 因 病 种 类 较 少 , 仅 限 于 基因 组 方法 得 到 的 药物 靶 标 作用 效 
末 往 往 不 够 理想 。 随 看 后 基因 组 时 代 的 到 来 ,其 他 组 学 数据 在 药物 靶 标 发 现 中 发 挥 了 越 来 
越 重 要 的 作用 。 


(二 ) 基因 芯片 方法 


基因 发 片 技术 指 将 大 量 (通常 每 平方 厘米 点 阵 密 度 高 于 400 ) 探 针 分 子 固定 于 支持 物 上 
与 标记 的 样品 分 子 进行 杂交 ,检测 每 个 探 针 分 子 的 杂交 信号 强度 ,进而 获取 样品 分 子 的 数量 
和 订 列 信息 。 由 于 基因 芯片 技术 的 高 通 量 \ 快 速 .平行 化 等 特点 ,使 得 疾病 相关 的 基因 芯片 数 
据 资源 非常 丰富 ,利用 基因 芯片 数据 挖掘 潜在 药物 靶 标 成 为 一 种 重要 的 途径 。 例 如 ,在 GEO 
数据 库 的 基础 上 , Hu 等 建立 了 大 规模 的 疾病 - 药物 对 应 网 络 ,帮助 有 效 地 识别 药物 靶 标 。 
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但 由 于 基因 芯片 本 身 存 在 重复 性 较 差 和 数据 质量 不 高 等 问题 ,需要 发 展 多 种 有 效 的 分 
析 方 法 ,尤其 是 能 够 处 理 多 个 数据 集 、 对 噪声 不 敏感 的 统计 方法 ,以 提取 海量 数据 中 蕴含 的 
有 用 信息 。 

1. 基于 比较 基因 忆 片 数据 ”基因 芯片 能 够 一 次 性 地 记录 疾病 状态 下 成 千 上 万 个 基因 的 
变化 情况 。 通 过 比较 疾病 组 与 正常 组 的 基因 心 片 数据 ,寻找 显著 差异 的 基因 集合 ,可 用 于 预 
测 相 关 的 生物 标志 物 或 药物 靶 标 。 其 中 ,寻找 差异 表达 基因 的 计算 方法 很 多 ,最 直接 的 方法 
是 测量 变化 倍数 , 即 计算 两 个 样本 之 间 同 一 个 基因 的 表达 量 之 比 。 尽 管 变化 倍数 方法 直观 
有 效 ,但 是 该 方法 没有 考虑 噪声 和 生物 学 可 变性 ,尤其 是 癌症 这 种 本 质 上 多 相 异 质 的 复杂 疾 
病 。 因 此 ,更 加 通用 的 办 法 是 采用 尽 可 能 多 的 疾病 样本 进行 统计 学 分 析 , 如 ANOVA 和 T-like 
检验 等 。 由 于 单个 基因 难以 检测 疾病 状态 下 翻译 模型 的 变化 ,生物 标志 物 通 和 常 包括 一 组 基 
因 ,需要 一 定 的 聚 类 方法 寻找 相关 基因 的 组 合 。 如 CSEA 方 法 能 够 评估 两 种 生物 学 状态 下 一 
组 基因 和 集合 的 统计 显著 性 ,已 广泛 地 应 用 于 基因 芯片 数据 的 分 析 。 

2. 多 种 来 源 的 基因 芯片 数据 的 整合 由 于 单个 芯片 数据 本 喘 存 在 的 噪声 及 系统 偶 
Æ ,预测 结果 往往 存在 误差 。 因 此 ,最 新 的 研究 通过 整合 不 同 实验 来 源 的 多 组 基因 必 片 的 
数据 ,减少 单个 必 片 实验 中 的 误差 影响 ,寻找 更 加 通用 的 生物 标志 物 和 药物 靶 标 。 数 据 
整合 的 目的 是 将 不 同 来源 的 芯片 数据 进行 处 理 , 使 得 相同 基因 的 数据 可 以 相互 比较 。 在 
预 处 理 过 程 中 ,不 同 的 标准 化 方法 会 影响 不 同 来 源 的 芯片 数据 之 间 的 可 比 性 。Autio 等 
比较 了 来 自 于 5 个 芯片 组 的 6926 个 基因 表达 数据 ,评估 5 种 标准 化 方法 的 应 用 效果 。 经 
过 研究 发 现 , 采 用 AGC 方法 (array generation based gene centering normalization ) 先进 行 
样本 内 标准 化 再 进行 样本 间 的 标准 化 时 ,能 够 得 到 最 好 的 预 处 理 结果 , 即 在 数 千 个 样本 
之 间 得 到 可 比较 的 基因 表达 量 。 此 外 , Stafford 等 从 以 下 3 方面 对 8 种 常用 的 标准 化 方 
法 进行 比较 : 敏感 性 和 通用 性 、 功 能 / 生物 学 解释 以 及 特征 选择 和 分 类 错误 ,方便 用 户 挑 
选 合适 的 标准 化 方法 进行 路 实验 室 . 蜂 平 台 的 基因 心 片 表 达 数 据 的 比较 。 采 用 一 定 的 
统计 方法 对 不 同 来 源 的 芯片 数据 进行 整合 ,可 以 在 进行 更 少 实 验 的 情况 下 更 好 地 利用 
已 有 必 片 数据 ,有 助 于 发 现 多 种 瘤 钙 样本 中 共同 的 生物 标志 物 以 及 有 茶 种 瘤 钙 特异 的 生 
物 标 志 物 ,其 中 ,最 简单 的 方法 是 Z 打分 归 一 化 。 较 复杂 的 方法 是 提取 不 同 数据 集中 表 
达 数 据 的 分 布 特征 参数 ,根据 这 些 特定 的 参数 进行 数据 集 匹 配 ,包括 : Distance Weighted 
Discrimination , Combatting Batcheffects , disTran、 Median Rank Score, Quantile Discretizing 
和 Z 打分 变换 等 。 其 中 ,经 典 方法 的 是 Daniel 等 最 早 提出 的 荟萃 分 析 ( Meta-analysis ) 77 
法 。 利 用 ONCOMINE 数据 库 ,他 们 收集 了 40 个 独立 数据 集 ( 超 过 3700 个 芯片 实验 ), 提 
出 了 一 种 独立 于 单个 数据 集 的 统计 量 Q-value ,寻找 多 种 来 源 数据 集中 显著 差异 表达 的 
AE D EO ZEE TR JC Meta-signature )。 此 后 ,多 基因 芯片 融合 方法 得 到 了 普遍 关注 ,各 
种 统计 方法 被 用 于 发 现 通用 标志 物 并 与 Meta-analysis 方法 进行 比较 。 例 如 , Xu 等 收集 
和 整合 了 26 个 公开 发 表 的 癌症 数据 集 ,包括 21 个 主要 的 人 类 癌症 类 型 的 1 500 个 基因 起 
片 数 据 , 应 用 TSPG( top-scoring pair of groups ) 分 类 器 和 重复 随机 采样 策略 ,识别 通用 的 
癌症 标志 物 。 评 估 结 果 表 明 ,采用 一 定 的 统计 方法 整合 多 种 必 re 
健 的 癌症 标志 物 , 相 比 单 基 因 芯 片 得 到 的 标志 物 ,其 将 况 症 类 型 与 正常 组 织 的 区 分 效 来 
更 好 。 
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= 学 方法 
(=) 蛋白 质 组 学 方 ; 


通常 ,功能 集 日 的 表达 异 第 和 调 广 异常 是 疾病 发 生 的 分 子 标志 ,这 些 决 定 个 体 生 物性 
状 、 代 谢 特征 和 病理 状况 的 特殊 功能 和 蛋白 可 以 作为 潜在 的 药物 靶 标 。 尺 管 90% 的 已 知 药 靶 
为 焦 日 质 ,但 由 于 数据 和 技术 上 的 原因 , 重 白 质 水 平 的 药物 靶 标 并 不 如 基因 转录 水 平 的 人 研 
究 广 泛 。 近 年 来 , 随 着 更 多 重 日 质 详细 数据 的 获得 ,在 重 白 质 水 平 上 进行 药物 靶 标 的 开发 和 
验证 成 为 研究 的 热点 。 

1. 基于 生日 质 的 理化 特性 EAER TE 序列 特征 和 结构 特征 上 , 药 靶 分 子 和 
韭 药 靶 分 子 存 在 着 显著 的 差异 。Bakheet 等 的 工作 具有 一 定 的 代表 性 。 他 们 系统 分 析 了 148 
FARAYE A Jot A3573 个 非 药 靶 重 日 质 的 特性 ,寻找 两 者 的 区 别 并 预测 新 的 潜在 药物 部 
标 。 人 类 药物 误 标 重 白 可 以 归纳 为 8 个 主要 属性 : BKE KERK ` 包 含 信号 肽 结构 域 、 
不 含 PEST 结构 域 .具有 超过 2 个 N- 糖 基 化 的 氨基 酸 、 不 超过 一 个 0- 糖 基 化 的 丝氨酸 、 低 等 
电 点 和 定位 在 膜 上 。 以 这 些 特征 作为 文 持 回 量 机 的 输入 ,可 以 在 药 靶 和 非 药 靶 类 之 间 达 到 
96% 的 分 类 准确 率 ,并 识别 出 668 个 具有 类 似 靶 标 属 性 的 和 蛋白质。 基于 蛋白质 的 理化 特性 进 
行 药物 靶 标 预测 ,有 利于 发 现 药 物 靶 标的 一 般 特 征 ,方法 直接 ,简单 ,但 该 方法 受 已 知 药 划 的 
影响 较 大 ,在 确认 药 靶 的 有 效 性 时 还 需要 引入 更 多 的 证 据 文 持 。 

2. 基于 重 日 质 相互 作用 的 网 络 特征 ” 癌 基 因 ( oncogene ) 是 人 类 或 其 他 动物 细胞 (以 及 
致癌 病毒 ) 固有 的 一 类 基因 ,又 称 转化 基因 ,它们 一 旦 活化 便 能 促使 人 或 动物 的 正常 细胞 发 
ALTAR. AY EAE A 2 B hub 重 日 参与 多 种 细胞 进程 ,在 信号 通路 中 间 成 为 信息 
交换 的 焦点 。 发 现 新 的 癌症 相关 基因 是 癌症 研究 的 主要 目标 之 一 ,也 是 发 现 潜在 药 靶 的 基 
础 。 人 类 基因 组 规模 的 重 日 质 相 互 作用 数据 的 快速 积累 为 研究 癌 基 因 在 细胞 网 络 中 的 拓扑 
属性 提供 了 条 件 。 在 蛋白质 相互 作用 网 络 的 基础 上 , Xu 等 提取 了 节点 的 5 个 网 络 特征 , 包 
TRIE PEE IN 指数 .2N 指数 .与 致 病 基因 的 平均 距离 以 及 正 拓扑 相关 系数 ( positive topology 
coefficient ), 采 用 KNN 方法 比较 疾病 相关 基因 和 对 照 基因 在 网 络 特 征 上 的 区 别 。 研 究 结果 
证 实 : 疾病 相关 基因 具有 更 高 的 连接 度 , 更 倾向 与 其 他 的 致 病 基因 发 生 相 互 作用 ,而 且 致 病 
基因 之 间 的 平均 距离 明显 低 于 非 致 病 基因 。Ostlund 等 通过 筛选 与 已 知 癌 基 因 高 度 连接 的 
基因 ,得 到 了 一 个 由 1891 个 基因 组 成 的 集合 。 通 过 交叉 验证 ,分 析 功 能 注释 偏好 性 和 癌症 
组 织 中 的 表达 差异 进行 方法 验证 ,提供 了 一 个 较为 可 信 的 癌症 相关 的 候选 基因 列表 。 该 基 
因 列表 的 规模 是 已 知 癌 基 因数 目的 2 倍 以 上 ,对 于 生物 标志 物 和 药 靶 发 现 具有 一 定 的 提示 作 
用 。 进 一 步 , Li 等 通过 整合 多 种 数据 源 识别 瘤 基因 ,包括 网 络 特征 、 和 蛋白 质 的 结构 域 组 成 和 
功能 注释 信息 等 。 这 些 研 究 表 明 : 根据 蛋白 质 在 相互 作用 网 络 中 的 特征 ,能 有 效 地 提示 大 量 
的 潜在 药物 记 标 ,并 是 方便 与 其 他 方法 相 结 合 。 同 时 ,蛋白质 复合 物 的 拓扑 属性 和 模块 性 也 
可 用 于 药 靶 筛选 。 不 同 于 一 般 的 二 元 蛋白 质 相 互 作用 ,复合 物 更 接近 于 细胞 内 的 真实 状态 。 
在 复合 物 内 部 ,多 肽 之 间 相 互 连 接 成 为 不 同 的 核 , 其 他 和 蛋白质 与 核发 生 相 互 作用 形成 各 种 模 
块 。 重 日 质 相 互 作用 网 络 体现 了 和 蛋白 质 组 的 系统 水 平 描述 ,对 于 建 模 复 杂 的 生物 系统 具有 
非常 重要 的 作用 。 有 关 和 借 白 质 相 互 作用 的 知识 可 以 使 人 们 在 分 子 水平 上 更 好 地 理解 信号 转 
导 的 生理 学 活动 ,以 及 由 于 通路 的 交 春 部 分 异 前 造成 的 多 种 疾病 。 

3. 比较 集 日 质 组 方法 ”蛋白质 组 学 是 研究 特定 时 空 条 件 下 细胞 、 组 织 等 所 含 蛋 白质 表 
达 谱 的 有 效 手段 ,也 是 寻找 净 症 分 子 标记 和 药物 靶 标 的 重要 方法 。 相 关 的 蛋白 质 组 学 技术 
包括 免疫 亲 和 纯 化 ( affinity purification ) 和 蛋白 质 活性 表达 谱 ( activity-based profiling ) 和 和 蛋白 
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WEG Hr ( microarray ) 等 ,识别 与 某 一 特定 疾病 或 者 病理 条 件 相关 的 和 蛋白质 。 基 于 蛋白质 组 学 
人 研究 药 靶 通常 采用 比较 蛋白 质 组 分 析 方 法 ,例如 ,稳定 放射 性 核 素 差异 标记 、ICAT( isotope- 
coded affinity tag ) 或 iTRAQ 技术 ,能 够 较为 精确 地 定量 集 白 质 丰 度 的 变化 。 通 过 比较 癌症 
人 和 群 与 正常 人 和 群 在 对 应 病理 组 织 / 占 官 内 和 蛋白质 的 差别 ,挖掘 潜在 的 药物 靶 标 。 例 如 , Hu 等 
采用 二 维 液 相 色谱 串联 质谱 法 (2D-LC-MS/MS ) 比较 肺癌 患者 与 正常 人 的 血清 蛋白 差异 ， 
经 过 和 蛋白 质 鉴定 和 和 定量 分 析 , 发 现 了 2078 个 蛋白质 可 能 存在 差异 ,进而 挑选 出 Tenascin-XB 
( TNXB ) 作为 候选 的 生物 标志 物 用 于 预测 肺癌 的 早期 转移 。 此 外 ,如 果 不 能 直接 找到 对 应 
的 活性 小 分 子 ,也 可 以 通过 比较 疾病 样本 和 正常 样本 中 和 蛋白质 的 表达 差异 ,鉴别 发 生 异 常 的 
生物 学 通路 。 采 用 总 体 的 蛋白 质谱 方法 (如 MudPIT ) 获取 充足 的 信息 ,发 现 与 特定 表 型 相关 
的 蛋白质 和 通路 。 定 位 到 相应 的 生物 学 通路 之 后 ,再 从 中 确定 药物 靶 标 。 随 着 人 类 和 蛋白 质 
组 计划 的 推进 ,和 蛋白质 组 技术 的 发 展 为 系统 地 ,规模 化 地 寻找 蛋白质 药 靶 和 蛋白质 药 物 提供 
了 有 力 的 武器 。 但 由 于 现 有 数据 的 规模 和 质量 问题 ,以 及 分 析 方 法 的 限制 ,采用 重 白质 组 学 
方法 发 现 的 药物 靶 标 还 没有 人 们 预想 的 多 ,还 有 者 广阔 的 发 展 空 间 。 


(四 ) 代谢 组 方法 


代谢 组 学 是 生物 体内 小 分 子 代谢 物 的 总 和 ,所 有 对 生物 体 的 影响 均 可 反映 在 代谢 组 水 
平 。 代 谢 组 放大 了 入 日 质 组 的 变化 ,更 接近 于 组 织 的 表 型 。 代 谢 途 径 的 异常 变化 反映 卫生 
命 活 动 的 异常 ,因此 定量 描述 生物 体内 代谢 物 动态 的 多 参数 变化 可 揭示 疾病 的 发 病 机 制 。 
通常 ,代谢 组 学 的 实验 技术 包括 人 磁 共 振 、 质 谱 、 色 谱 等 ,其 中 磁 共 振 技 术 是 最 主要 的 分 析 工 
具 , 其 次 是 液 相 色谱 - 质谱 联 用 ( LC/MS ) 和 气相 色谱 - 质谱 联 用 (GC/MS )。 通 过 GC/MS 1x 
本 解析 出 代谢 物 的 质谱 图 ,将 其 与 现 有 数据 库 进 行 比较 ,可 以 鉴定 该 代谢 化 合 物 。 由 于 缺 
少 标准 的 代谢 物 数 据 库 ,该 方法 的 鉴定 结果 有 限 。 采 用 生物 信息 学 方法 对 代谢 组 数据 进行 
分 析 和 处 理 , 比较 正 常 组 和 模型 组 的 区 别 , 可 以 帮助 药 靶 发 现 以 及 药 效 评估 。 如 Pohjanen% 
提出 了 一 种 名 为 统计 多 变量 代谢 谱 ( staistical multivariate metaboliteprofiling ) 的 策略 ,在 代谢 
GC/MS 数据 的 基础 上 辅助 药 革 模式 发 现 和 机 制 解 释 。 同 时 ,代谢 组 学 对 于 生物 标志 物 发 现 、 
药物 作用 模式 和 药物 毒性 研究 具有 重要 作用 。 在 酶 网 络 的 基础 上 , Sridhar 等 发 展 了 一 种 分 
支 定 界 ( branch-and-bound ) 方 法 ,命名 为 OPMET, 寻 找 优 化 的 酶 组 合 ( 即 药 物 靶 标 ), 用 于 抑 
制 给 定 的 目标 化 合 物 并 减少 副作用 。 类 似 的 ,通过 提取 代谢 系统 的 特征 , Li 等 采用 整数 线性 
规划 模型 在 整个 代谢 网 络 范围 内 寻找 能 够 阻止 目标 化 合 物 合 成 的 酶 集合 ,并 尽 可 能 地 消除 
对 非 目 标 化 合 物 的 影 啊 。 


(五 ) 整合 多 组 学 数据 的 系统 生物 学 方法 


系统 生物 学 将 基因 组 、 重 白 质 组 和 代谢 组 等 不 同 组 学 的 数据 进行 整合 ,研究 在 基因 、 
mRNA EAM .生物 小 分 子 水 平 上 系统 的 生物 学 功能 和 作用 机 制 。 对 于 疾病 的 发 生 和 发 展 
提供 了 更 好 的 理解 ,同时 有 助 于 识别 药物 的 作用 和 毒性 .模拟 药物 作用 的 过 程 、 发 现 特异 的 
ZIVE HEER o 
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提供 可 预测 的 模型 并 建立 人 类 疾病 的 生物 网 络 。 因 此 ,需要 广泛 地 收集 和 过 滤 现 有 的 各 个 
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层面 的 异 质数 据 和 信息 。 目 前 ,最 流行 的 生物 医学 文献 数据 库 MEDLINE/PubMed 收录 了 从 
1970 年 开始 的 超过 1800 万 篇 文献 的 摘要 ,并且 每 月 还 会 新 增 超过 6 万 篇 的 摘要 。 据 估计 ， 
存储 化 学 .基因 组 ,蛋白质 组 和 代谢 组 数据 的 数据 库 规 模 每 两 年 就 会 翻 一 倍 。 如 此 丰富 的 生 
物 数据 和 信息 为 药 靶 发 现 提供 了 巨大 的 新 机 遇 。 

尽管 分 子 生物 学 和 医学 研究 中 数据 库 的 重要 性 日 益 增长 , 绝 大 部 分 的 科学 论文 并 非 存 
在 于 结构 化 的 数据 库 条 目 中 。 这 些 知识 必然 无 法 为 计算 机 程序 所 理解 ,甚至 对 于 人 来 说 都 
是 难以 发 现 的 。 文 本 挖掘 方法 是 机 器 学 习 和 目 然 语 言 处 理 方 面 的 计算 方法 ,能 够 有 效 地 用 
于 数据 挖掘 和 知识 理解 ,从 海量 的 医学 文献 中 挖掘 与 药 靶 发 现 相 关 的 有 用 知识 。 

其 主要 内 容 包括 : 识别 生物 学 实体 ,包括 基因 基因 产物 .通路 和 疾病 ; PEER A Io 
作用 关系 ,并 以 网 络 图 形 化 表示 ; 抽 提 出 特定 细胞 类 型 中 相关 的 生物 学 通路 ,以 及 计算 机 仿 
真 所 需 的 动力 学 参数 ,建立 存储 这 些 抽 提 信 息 的 数据 库 。 目 前 ,生物 知识 的 文本 挖掘 方法 主 
要 采用 实体 的 共 出 现 分 析 和 自然 语言 处 理 , 已 成 功 地 用 于 疾病 相关 的 网 络 重建 以 及 生物 数 
据 分 析 , 和 常用 软件 包括 Protein Corral 和 EBIMed。 进 一 步 , 更 复杂 的 文本 挖掘 方法 可 以 从 文献 
中 抽 提 详细 的 相互 作用 注释 信息 ,如 Wang 等 发 展 了 一 种 CMW( correlated method—word ) 模型 
从 文本 中 提取 和 蛋白质 相互 作用 的 检测 信息 。 

2. 通路 建 模 与 仿真 ”药物 作用 是 一 个 复杂 的 动态 过 程 ,如 果 不 能 找到 合适 的 方法 就 很 
难 确认 药物 的 有 效 性 。 例 如 ,在 药物 开发 过 程 中 常用 的 手段 之 一 是 基因 项 除 实验 ,其 作用 方 
式 与 在 特定 酶 上 的 苑 争 抑 制 过 程 完 全 不 同 。 在 基因 敲 除 过 程 中 ,给 定 的 通路 可 能 被 完全 关 
闭 , 也 可 能 由 于 系统 的 自 喘 补偿 作用 而 只 有 部 分 的 影响 。 在 此 基础 上 设计 的 靶 癌 药物 可 能 
存在 效率 较 低 的 问题 。 因 此 ,为 了 使 药物 开发 过 程 更 贴近 于 真实 情况 ,有 必要 将 定量 的 建 模 
方法 引入 到 药物 人 研究 领域 ,精确 地 模拟 药物 与 又 标 相互 作用 进而 发 挥 药 效 的 过 程 ,发 现 更 加 
有 效 的 药物 作用 靶 点 。 随 着 实验 技术 的 发 展 .数据 的 累积 和 文本 挖掘 的 开展 ,生物 通路 的 建 
模 方 法 得 到 了 快速 的 发 展 和 应 用 。 其 中 ,最 常用 的 建 模 方法 是 确定 性 生化 反应 描述 ,已 成 
功 地 用 于 药物 代谢 动力 学 和 药剂 反应 建 模 。 确 定性 反应 的 缺点 在 于 缺乏 可 伸缩 性 。 通 常 ， 
基因 组 和 各 白质 组 方法 要 处 理 数 十 甚至 数 百 个 分 子 之 间 的 信号 网 络 ,反应 参数 的 范围 可 能 
包含 多 个 跨度 ,超出 了 确定 性 方法 的 处 理 能 力 。 最 新 出 现 的 方法 ,如 结合 反应 ( combinatorial 
reaction generation ) 和 线性 规划 ( linear programming ) 可 以 满足 这 种 需求 ,批量 地 处 理 大 规模 
的 复杂 化 学 反应 网 络 。 进 一 步 , 随 机 方法 能 够 从 根本 上 克服 确定 性 方法 的 限制 。 它 们 是 高 
度 可 伸缩 性 的 ,同时 易于 进行 模拟 。 然 而 , 面 对 复杂 的 非 线性 动态 问题 ,随机 方法 也 存在 很 
大 的 难度 ,还 有 竺 进一步 探索 。 近 年 来 ,用 于 描述 反应 动力 学 网 络 的 数学 模型 被 证 明 可 以 有 
效 地 预测 生物 体 对 于 环境 刺激 和 外 界 扰动 的 啊 应 ,识别 可 能 的 药物 靶 标 。 一 种 系统 的 约 物 
设计 方法 是 : 在 网 络 中 模拟 单个 反应 的 抑制 过 程 ,量化 在 指定 观察 量 上 的 作用 效果 。 在 代谢 
网 络 中 ,观察 量 一 般 是 稳 态 值 ,在 信号 级 联 模型 中 ,观察 量 包 括 浓度 .特征 时 间 、 信 号 持续 时 
间 和 信号 幅 值 等 。Schulz 等 在 系统 生物 学 标记 语言 Systems biology markup language(SBML ) 
的 基础 上 开发 了 一 丈 名 为 TIde 的 工具 ,采用 普通 微分 方程 对 系统 进行 模拟 ,人 研究 在 网 络 中 
不 同位 置 进行 激活 和 抑制 处 理 时 系统 的 啊 应 。 通 过 模拟 不 同 的 抑制 目标 、 类 型 和 抑制 简 深 
FE ,确定 一 个 或 多 个 优化 的 药物 靶 标 ,在 尽 可 能 少 的 抑制 剂 数目 下 以 较 低 的 浓度 使 指定 的 观 
察 量 达 到 期 望 值 。 此 类 药物 作用 模型 的 建立 和 模拟 有 助 于 理解 药物 的 作用 机 制 ,预测 药 效 
发 挥 过 程 中 可 能 存在 的 问题 ,进而 为 实验 设计 提供 辅助 作用 。 
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3. 多 组 学 数据 的 综合 应 用 ”系统 生物 学 的 优势 在 于 “整合 ”, 即 综合 利用 基因 组 学 、 转 
录 组 学 ,蛋白质 组 学 和 代谢 组 学 研究 药物 对 系统 的 影响 ,提示 可 能 的 作用 靶 点 。 例 如 , Chu 
等 根据 大 规模 实验 及 相关 数据 库 建立 了 整合 的 蛋白 质 相 互 作用 数据 集 ,采用 非 线 性 随机 模 
型 .最 大 似 然 参 数 估 计 和 Akaike 信 息 准 则 ( Akaike information criteria, AIC ) 方法 ,通过 基因 
芯片 数据 估计 疾病 状态 和 正常 状态 下 的 蛋白 质 相 互 作 用 网 络 差 异 , 识 别 受 到 扰动 的 枢纽 
(Hub ) 重 白 节点 ,发 现 候选 的 药物 靶 标 。 除 将 转录 组 和 重 白 质 组 数据 结合 之 外 ,基因 组 与 转 
录 组 .基因 组 与 蛋白 质 组 甚至 更 多 组 学 数据 的 整合 研究 也 在 进行 中 。 整 合 研 究 的 关键 是 以 
生物 网 络 为 中 心 加 深 对 整个 系统 的 理解 。 疾 病 是 一 个 非常 复杂 的 生理 和 病理 过 程 ,涉及 多 
基因 多 通路 .多 途径 的 分 子 相 互 作用 的 过 程 ,这 种 网 络 化 的 特点 对 于 药 靶 凶 选 至 天 重要 。 
系统 生物 学 为 药物 开发 过 程 提供 了 全 新 的 视野 ,将 重 白 质 靶 标 置 于 其 内 在 的 生理 环境 中 ,在 
提供 网 络 化 的 整体 性 视角 的 同时 不 会 丧失 关键 的 分 子 作 用 细节 。 鉴 于 生物 网 络 具 有 一 定 的 
宛 余 性 和 多 样 性 ,包括 一 定 的 反馈 回路 和 故障 安全 (fail-safe ) 机 制 。 因 此 ,筛选 浴 在 药 靶 时 
要 考虑 到 其 在 网 络 中 的 位 置 ,优先 挑选 那些 处 于 枢纽 位 置 发 挥 重要 作用 的 靶 点 ,并 且 避 倪 反 
僻 回 路 对 药 效 进行 补偿 。 同 时 ,疾病 相关 网 络 的 内 部 高 连接 度 表 明 ,基于 网 络 的 诊疗 方法 应 
以 整个 通路 作为 靶 标 , 而 不 是 单个 蛋白 质 。 其 最 终 的 目标 不 仅 是 识别 一 组 能 够 共同 发 挥 作 
用 的 药物 ,而且 发 现 一 组 靶 标 或 模块 的 组 合 ,它们 在 不 同 的 治疗 位 置 发 挥 作用 并 最 后 集中 到 
一 个 特定 的 通路 位 点 。 尽 管 看 起 来 这 是 一 个 几乎 不 可 能 实现 的 任务 ,但 是 在 乳腺 瘤 转移 上 
的 实验 已 经 证 明了 基于 通路 知识 进行 多 靶 点 联合 治疗 的 有 效 性 。 


二 、 洪 在 药 靶 的 生物 信息 学 验证 >) 


在 大 量 的 潜在 药 靶 被 揭示 之 后 ,在 此 基础 上 可 以 寻找 针对 性 的 抑制 小 分 子 ,进行 后 续 的 
动物 实验 ,临床 测试 等 一 系列 药物 开发 过 程 。 由 于 药物 开发 的 难度 较 大 周期 很 长 ,在 前 期 
对 候选 药 靶 进 行 充分 的 筛选 和 验证 显得 非常 必要 。 生 物 信息 学 方法 在 对 候选 欧 靶 进行 功能 
分 析 ,预测 其 可 药性 并 降低 药物 副作用 方面 也 有 重要 的 应 用 。 


(一 ) 蛋 日 质 的 可 药性 


随 着 超过 上 百 个 真 核 和 原核 生物 的 基因 组 被 完整 测序 ,人 们 有 机 会 对 基因 进行 大 规模 
的 分 析 和 筛选 , 据 估 计 整 个 人 类 基因 组 中 约 有 10% 与 疾病 相关 ,从 而 导致 约 3000 个 潜在 的 
药物 靶 标 。 同 时 ,还 有 成 千 上 万 个 来 自 于 微生物 和 寄生 生物 的 蛋白质 ,可 以 作为 传染 病 治 疗 
的 药 靶 。 目 前 ,在 所 有 的 人 类 基因 产物 中 仅 有 2% ( 260-400 ) 成 功 地 发 展 为 小 分 子 药物 的 靶 
标 。 从 大 量 的 潜在 靶 标 中 挖掘 能 够 被 疾病 修饰 的 可 药 部 分 是 药物 靶 标 验证 的 重要 环节 。 根 
据 基 因 组 信息 和 蛋白质 结 构 特 征 , 人 们 开发 了 一 系列 生物 信息 学 方法 预测 潜在 氢 标 的 可 药 
性 。 评 估 蛋 白质 可 药性 的 第 一 步 是 识别 在 和 蛋白质 表 面 的 所 有 可 能 的 结合 位 点 ,进而 寻找 真 
实 的 配 体 可 结合 位 点 。 其 计算 方法 主要 分 为 两 类 : 基于 几何 的 方法 和 基于 能 量 的 方法 。 几 
何 基础 上 的 方法 利用 了 这 样 一 个 事实 : 天 然 的 配 体 结合 位 点 在 蛋白 质 表面 倾 问 于 内 部 四 陷 ， 
例如 SURFNET 、LIGSITE , SPROPOS, CAST, PASS 和 Flood-fill 方法 。 而 能 量 基础 上 的 方法 
将 多 种 物理 指标 综合 到 pocket 识别 过 程 , 试 图 计算 其 结合 能 ,如 GRID、vdW-FFT、DrugSite 
和 Computaional solvent mapping。 在 排序 过 程 中 ,这 些 方法 都 能 够 给 予 真实 的 配 体 结合 位 点 
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以 较 高 的 打分 ,证 实 了 其 有 效 性 。 第 二 步 是 评估 结合 位 点 能 否 高 亲 和 人 性 特异 地 与 小 分 子 药 
物 结合 。 定 量 评估 给 定位 点 可 药性 的 计算 工具 较 少 ,最 直接 的 评估 蛋白质 可 药性 的 方法 是 
根据 生物 化 学 谱 实 际 测量 小 分 子 击 中 目标 的 数目 和 类 型 ,如 MR 谱 图 。 

此 外 ,由 于 大 部 分 的 和 蛋白质 是 通过 与 其 他 蛋白质 相互 作用 发 挥 生物 学 功能 ,和 蛋 白 质 相 
互 作 用 在 组 织 的 各 种 细胞 过 程 中 发 挥 了 基础 和 关键 作用 ,被 认为 是 一 种 富 于 挑战 的 同时 又 
充满 吸引 力 的 小 分 子 药 物 作 用 的 新 型 靶 标 。 类 似 于 单个 蛋白 质 的 可 药性 ,人 们 提出 了 多 种 
方法 预测 和 蛋白质 相互 作用 的 可 药性 。2007 年 , Sugaya 等 从 3 个 方面 评估 蛋白质 相互 作用 的 
可 药性 : 重 白质 相互 作用 中 包含 的 结构 域 对 、 和 蛋白 质 与 小 分 子 药物 的 结合 位 点 、GO 功 能 注 
释 的 相似 性 打分 。 最 近 , Sugaya 等 使 用 结构 药物 和 化 学 以 及 功能 相关 的 69 个 特征 作为 文 
持 向 量 机 的 输入 ,判断 1295 对 已 知 结构 的 蛋白 质 相 互 作用 的 可 药性 ,在 标准 的 相互 作用 数 
据 集中 得 到 了 81% 的 预测 准确 率 , 其 中 区 分 度 最 大 的 特征 是 相互 作用 重 白 质 的 数目 和 通路 
数目 。 


(二 ) 药物 的 副作用 


多 组 学 数据 的 大 量 累 积 为 药物 研究 提供 了 发 展 机 遇 , 人 们 开发 了 多 种 方法 用 于 发 现 淤 
在 的 药物 靶 标 ,但 是 最 终 找到 合适 的 药物 作用 各 标 并 成 功 地 进行 临床 应 用 并 非 易 事 。 一 般 
选择 药物 作用 和 革 标 要 考虑 两 个 方面 的 情况 : 首先 是 靶 标 的 有 效 性 , 即 靶 标 与 疾病 确实 相关 ， 
通过 调节 投标 的 生理 活性 能 够 有 效 地 改善 疾病 症状 。 其 次 是 靶 标的 副作用 ,如 果 对 靶 标 的 
生理 活性 的 调节 不 可 避免 地 产生 严重 的 副作用 ,那么 将 其 选 作 药物 作用 靶 标 也 是 不 合适 的 。 

药 记 和 药物 代谢 酶 多 态 性 是 造成 药物 疗效 差异 和 毒 副 作用 的 主要 原因 之 一 。 药 物 反 应 
个 体 差 异 与 个 体 的 基因 多 态 性 特别 是 单 核 苷 酸 多 态 性 ( singlenucleotide polymorphism, SNP ) 
密切 相关 。SNP 主要 是 指 在 基因 组 水 平 上 由 单个 核 苷 酸 的 变异 所 引起 的 DNA 序 列 多 人 态 性 。 
SNP 在 人 类 基因 组 中 广泛 存在 ,平均 每 500~1000 个 碱 基 对 中 就 有 1 个 ,估计 其 总 数 可 达 300 
万 个 甚至 更 多 。 事 先 确 定 药 物 靶 标的 基因 多 态 性 , 束 可 以 估计 药物 适用 的 人 群 ,进行 个 性 
化 的 医疗 ,增加 疗效 并 降低 毒 副 作用 。 目 前 , 随 关 快速 .规模 化 技术 的 发 展 ,大 量 的 SNP 已 
经 被 指示 ,为 相关 人 钱 究 提供 了 基础 。 而 生物 信息 学 方法 可 以 帮助 曾 释 SNP 与 疾病 治疗 之 间 
的 关系 ,发 现 疾 病 易 感 基因 和 潜在 药物 靶 标 ,评估 药物 疗效 和 毒 副 作用 。 以 乳腺 癌 为 模型 ， 
Wiechec 等 报道 SNP 基 因 型 会 影响 DNA 修复 基因 的 转录 活性 和 药物 代谢 过 程 ,从 而 影 啊 到 临 
床 的 治疗 毒性 和 效果 。 

在 生物 网 络 基础 上 综合 评估 药物 作用 的 多 种 影响 ,也 有 助 于 寻找 增加 药物 疗效 .降低 副 
作用 的 有 效 方法 。 在 和 蛋白质- 药物 相互 作用 网 络 的 基础 上 , Xie 等 介绍 了 一 种 新 的 计算 策略 
识别 基因 组 规模 的 蛋白 质 - 受 体 结合 谱 , 用 于 阐释 CETP 抑 制剂 的 药物 作用 机 制 。 通 过 将 药 
物 误 标 与 生物 学 通路 相关 联 , 揭 示 了 CETP 抑 制剂 的 副作用 受 多 个 交 联通 路 的 联合 控制 ,给 
出 了 降低 此 类 药物 副作用 的 可 能 方法 。 

随 厦 大 规模 组 学 数据 的 积累 , 仪 赁 实验 方法 已 经 不 能 满足 数据 分 析 和 药 靶 发 现 的 需求 ， 
有 必要 发 展 有 效 的 生物 信息 学 方法 存储 ,分 析 、 人 处 理 和 整合 多 组 学 数据 ,提高 药 革 发现 和 验 
证 的 效率 。 目 前 ,生物 信息 学 方法 已 成 功 地 运用 于 药 靶 发 现 的 各 个 环节 ,对 于 存储 疾病 相关 
的 医学 数据 发现 大 量 潜在 的 药物 靶 标 .揭示 药物 作用 机 制 ` 评 佑 作用 部 点 的 可 药性 等 方面 
作出 了 重要 贡献 ,有 利于 设计 更 加 有 针对 性 的 生物 学 实验 ,促进 现代 新 药 开 发 进程 。 相 比 其 
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他 方法 ,采用 生物 信息 学 预测 潜在 药物 靶 标 的 优势 在 于 : DAS n BI PE RS SOR PS 
的 信息 ,尤其 适合 将 不 同 的 数据 整合 到 一 个 大 的 体系 中 评估 潜在 药 靶 的 表现 ; QW ZG AE 
础 的 药 靶 发 现 平台 有 利于 从 整体 角度 进行 药 靶 盘 选 并 发 现 联合 靶 标 ; (3) 随 看 动态 的 详细 的 
生物 学 时 空 数据 的 累积 ,有 可 能 在 计算 机 中 精确 地 模拟 药物 针对 靶 标 作用 的 过 程 以 及 对 整 
个 系统 产生 的 影响 ,从 而 大 大 提高 药物 开发 的 效率 。 

生物 信息 学 方法 在 药物 靶 标 发 现 的 应 用 还 刚刚 起 步 ,有 赖 于 生物 学 理论 .实验 技术 ft 
计 分 析 和 建 模 方法 等 多 方面 的 进一步 发 展 ,从 而 在 后 基因 组 时 代 的 疾病 诊断 、 预 后 和 个 性 化 
医疗 中 发 挥 更 加 重要 的 作用 。 
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药物 基因 组 学 





Section 3 Pharmacogenomics 


所 谓 欧 物 基 因 组 学 ,就 是 在 人 类 全 基因 组 范围 全 究 药 物 反 应 差异 的 遗传 学 本 质 。 人 类 
基因 组 具有 广泛 的 多 态 性 ,药物 基因 组 学 研究 个 体 的 遗传 背景 ,预测 药物 反应 特点 ,实施 “个 
体 化 ”合理 用 药 ,并 可 以 根据 不 同人 群 及 不 同 个 体 的 遗传 特点 设计 、 开 发 和 研制 新 药 。 

约 物 基因 组 学 以 基因 多 态 性 为 基础 ,而 基因 多 态 性 是 指 群体 中 正常 个 体 的 基因 在 相同 
位 置 上 存在 差别 (如 单 碱 基 差别 .或 单 基因 多 基因 以 及 重复 序列 数目 的 差别 等 ), 并 且 这 种 
差别 出 现 的 频率 大 于 1%。 药 物 基因 组 学 研究 药物 效应 的 个 体 间 差 异 ,针对 不 同 个 体 基因 型 
进行 个 性 化 治疗 。 其 研究 内 容 包括 药物 效应 的 基因 型 预测 和 基因 组 学 在 医药 上 的 应 用 ,在 
41 T 2K^F- E-uEBT A PRA IT SL .药物 作用 的 靶 位 .作用 模式 和 毒 副 作用 。 

约 物 基因 组 学 不 是 以 发 现 新 的 基因 和 探索 疾病 的 发 生机 制 为 主要 目标 ,而 是 以 探讨 药 
物 作用 的 遗传 分 布 , 确 定 药物 作用 靶 点 来 满足 临床 上 最 佳 的 药物 效应 及 安全 性 为 目标 。 药 
物 基因 组 学 除了 研究 遗传 多 样 性 引起 的 药物 或 有 毒物 质 反 应 的 差异 外 ,还 研究 基因 多 样 性 
与 芍 效 的 关系 ,以 及 个 体 差异 与 同 种 药物 不 同 作 用 靶 点 的 关系 等 。 


二 、 药 物 基 因 组 学 的 生物 标记 >> 
(一 ) BBS AS 


人 和 群 中 大 多 数 可 观察 到 的 序列 突变 是 由 单 核 苷 酸 多 态 导 致 的 。 单 核 背 酸 多 态 ( single 
nucleotide polymorphisms, SNP ) 是 碱 基 对 的 变异 ,大约 每 1000bp 的 DNA 序 列 中 会 有 一 个 SNP。 
一 个 特定 基因 的 SNP 位 置 将 会 决定 对 这 个 基因 功能 可 能 造成 的 影响 。 

1. 基因 编码 区 的 SNP 大约 有 1% 的 SNP 影 响 DNA 序 列 中 各 白质 编 但 部 分 ,这 些 SNP 通 笛 
叫做 编码 SNP(CeSNP ), 它 们 的 存在 可 能 导致 集 白 质 多 肽 链 中 氨基 酸 序 列 的 改变 ,对 重 白 质 的 
功能 有 影响 ,影响 的 范围 可 以 从 没有 明显 影响 ,增强 活性 ,到 重 白 质 功 能 的 完全 失 活 。 在 许 
多 例子 当中 ,这 种 影响 往往 是 不 明显 的 ,至 少 在 基于 表达 的 重组 蛋白 质 功 能 分 析 上 , 常 常 通 
过 增强 或 者 阻碍 集 日 质 的 降解 过 程 来 间接 影响 集 日 质 功 能 。 

SNP| 除 了 将 一 个 氨基 酸 替换 成 男 一 个 氨基 酸 之 外 ,还 能 产生 其 他 影响 。 比 如 ,可 能 导致 
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一 个 DNA 遗 传 密码 子 过 早 地 终止 重 白质 翻译 ,这 个 被 称 之 为 一 个 过 早 的 终止 密码 子 或 无 意 
义 密码 子 。 这 种 密码 子 会 导致 一 个 截断 的 蛋白 质 迅速 降解 或 功能 失 活 。 有 趣 的 是 ,最 近 的 
证 据 表 明 ,这 样 的 截断 和 蛋白质 可 能 会 一 直 形 成 ,不 会 结束 ,这 是 因为 有 一 个 系统 监控 mRNA 
中 无 意义 密码 子 的 存在 ,导致 nRNA 在 降解 之 前 翻译 。CZYP2C719 扫 等 位 基因 就 是 一 个 典型 的 
过 早 终止 密码 子 的 例子 。CYP2C19 基 因 编 码 的 细胞 色素 P450 CYP2C192& H1 ,是 一 种 肝 药 酶 ， 
主要 负责 代谢 多 种 药物 ,包括 巴 比 妥 类 乙 内 酰 脲 和 多 种 质子 泵 抑制 剂 (如 奥 美 拉 哗 )。 一 部 
分 个 体 体内 的 这 种 酶 含量 不 足 ( 代 谢 不 良 ), 将 影响 给 药 和 疗效 。 比 如 说 ,用 奥 美 拉 唑 和 阿 葛 
西林 治疗 与 幽门 螺杆 菌 感染 相关 的 骨 溃 疡 和 十 二 指 肠 溃疡 的 患者 ,不 恨 代 谢 者 比 快速 代谢 
者 的 治疗 效果 更 好 。 然 而 ,代谢 不 良 的 发 生 因 人 和 群 而 异 , 相 较 于 欧洲 白 种 人 后 毅 ( 296-596 ), 
东亚 人 发 生 的 频率 更 高 (18% 到 23% ,包括 日 本 ,中 国 和 韩国 )。 这 些 人 和 群 的 差异 部 分 源 于 
CYP2C19* 3 等 位 基因 ,其 中 发 生 在 东亚 人 群 中 的 约 6% 至 10% ,但 对 于 欧洲 白人 后 毅 基 本 上 
不 发 生 。 与 CYP2C19#3 等 位 基因 相关 的 SNP 导 致 色 氨 酸 密 码 子 TGG 被 奉 换 成 终止 密码 子 
TGA ,这 就 导致 了 酶 被 截断 ,从 而 不 稳定 以 及 失 活 。 

在 大 多 数 情 况 下 ,在 蛋白 质 编码 区 的 SNP 对 氨基 酸 编 码 没 有 影响 。 这 些 类 型 的 SNP 被 称 
为 同 义 ( 或 沉默 )SNP ,它们 是 退化 氨基 酸 编码 系统 的 结果 ,这 个 系统 被 重 白 质 翻 译 机 需 所 使 
用 ,使 得 DNA 核 苷 酸 三 联 体 可 以 有 几 种 不 同 的 组 合 编码 同一 种 氨基 酸 。 虽 然 同 义 SNP 通 党 
被 认为 对 蛋白 质 功 能 没有 影响 ,但 是 最 近 一 项 研究 却 给 出 了 相反 的 结果 .人 类 MDR1 基 因 ( 编 
I3 P—88 48 FAO 中 发 现 了 在 外 显 子 26 中 有 一 个 常见 的 同 义 SNP, 这 个 SNP 先 前 与 活体 内 P- 糖 重 
白 活性 的 降低 有 关 , 当 各 种 哺乳 动物 细胞 系 中 的 重组 蛋白 质 被 表达 时 , 它 就 改变 P- 糖 重 白 的 
构成 和 底 物 的 特异 性 。 这 个 结果 是 由 于 在 参照 序列 中 比较 常用 的 甘氨酸 密码 子 GGC 被 突变 
序列 中 相对 较 少 的 甘 揪 酸 密码 子 GGT 所 蔡 换 ,这 样 的 翻译 效率 可 能 比较 低 , 叶 致 翻译 的 入 日 
折合 区 时 间 的 改变 ,以 及 对 重 日 质 的 功能 有 不 利 的 影响 。 

SNP 的 位 置 位 于 一 个 基因 的 编码 区 域 之 外 也 会 造成 一 定 的 影响 ,包括 对 基因 转录 、 
mRNA 的 剪 切 .mRNA 的 降解 的 影响 ,以 及 生 白 质 翻译 效率 的 影 啊 。 

2. JABS AIS’? -调控 SNP ”位 于 一 个 基因 局 动手 和 5$” -调控 区 域 的 SNP 可 以 影 啊 ( 增 加 
或 减少 ) 基 因 的 转录 ,这 是 通过 DNA 序 列 中 的 变化 实现 的 ,结合 转录 因子 很 有 必要 ,这 些 转录 
因子 对 底 物 的 活性 .基因 表达 的 增强 与 抑制 都 很 重要 。 作 为 后 者 的 一 个 例子 ,位 于 一 个 假定 
y -干扰 素 激活 序列 元 件 的 SNP 用 来 消除 -干扰 素 对 CYP2E1 转 录 的 正常 抑制 影响 ，y - 干 
扰 素 激活 序列 位 于 CYP2E1 基 因 的 5“ -调控 区 域 。CYP2E1 是 一 种 药物 代谢 酶 , 它 催化 各 种 
低 分子 量 药物 的 氧化 ,最 显著 的 是 乙酰 氨基 酚 ( 高 浓度 ), 导 致 肝 毒 性 代谢 产物 N -乙酰 -P - 
A We MV RC AY FZ BX o 

3. 内 含 子 和 前 切 SNP ”转录 开始 之 后 ,主要 的 mRNA 转 录 通 常 包 含 编码 区 (外 显 子 ) 和 非 
编码 区 (内 含 子 ) 的 mRNA。 内 含 子 中 的 mRNA 通 常 通过 酶 切 被 移 到 一 个 更 短 的 成 熟 mRNA 
中 来 作为 蛋白 质 翻 译 的 模板 。 一 些 保守 序列 元 件 已 经 被 证 明 对 于 mRNA 在 特定 位 点 的 剪 切 
是 必 不 可 少 的 ,包括 在 外 显 子 和 内 含 子 边界 处 供 体 和 受 体位 点 的 剪 切 ,以 及 分 文 位 点 的 剪 
切 。 也 有 一 些 位 于 外 显 子 和 内 含 子 区 域 中 保守 度 较 低 的 序列 元 件 , 处 在 剪 切 位 点 的 周围, 这 
些 剪 切 位 点 也 为 调控 蛋白 提供 结合 位 点 ,调控 蛋白 既 可 以 促进 ( 剪 切 增强 子 ) sce TU da C99 7] 
抑制 子 )mRNA 的 剪 切 。 后 者 的 调控 位 点 提供 了 一 个 机 制 ,通过 这 个 机 制 ,不 同 的 mRNA 剪 切 
产物 可 以 从 相同 的 主要 mRNA 转录 的 调控 方式 中 产生 。 
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位 于 上 述 mRNA 序 列 元 件 的 任何 一 个 中 的 SNP 都 有 可 能 改变 mRNA 的 剪 切 ,导致 mRNA 
缺少 一 个 或 更 多 外 显 子 ,或 者 部 分 地 或 完全 地 保留 内 含 子 序 列 。 另 外 , SNP 可 能 创造 新 的 
BY TI BED SEAE .或 调控 位 点 ,这 些 调 控 位 点 同 其 他 剪 切 位 点 竞争 ,然后 再 形成 新 的 mRNA 突 
变 。 虽 然 产 生 的 剪 切 形式 可 能 编码 一 个 功能 和 蛋白 突变 ,但 是 更 可 能 的 情况 是 ,这 样 的 变化 导 
致 过 早 终止 密码 子 和 一 个 没有 活性 的 蛋白 质 的 出 现 。 

与 CYP345 基 因 有 关 的 SNP 说 明了 上 述 几 个 可 能 性 。CYP3A5 是 临床 上 重要 的 酶 CYP3A 
亚 科 ( 其 中 还 包括 CYP3A4, CYP3A7RICYP3A43 ) 的 其 中 一 种 , 它 负 责 人 体 中 大 部 分 药物 的 
氧化 。CYP345 在 人 体 中 有 多 种 表达 状态 ,只 有 33% 的 欧美 人 和 60% 的 美国 黑人 的 肝脏 里 有 
这 种 酶 的 表达 。 与 低 CYP345 表 达 关 联 的 最 常见 的 突变 等 位 基因 是 CYP345 * 3. CYP3A5 * 
3 包含 了 一 个 SNP, 这 个 SNP 在 CYP345 基 因 的 3 号 内 含 子 中 创造 了 一 个 新 的 前 切 位 点 ,导致 异 
常 的 mRNA 转 录 发 生 在 了 3 号 内 含 子 (外 显 子 3B ) 的 部 分 区 域 。3B 外 显 子 包 含 了 一 个 出 现在 
102 位 氨基 酸 之 后 的 过 早 终 止 密码 子 , 导 致 了 一 个 截断 和 失 活 的 CYP345 的 出 现 。 与 此 相反 ， 
有 些 罕见 的 主要 出 现在 美国 黑人 中 的 CYP345*6 等 位 基因 与 一 个 SNP( g.14690g»a ) 有 关 , 这 
个 SNP 破 坏 了 7 号 外 显 子 内 前 切 增强 子 的 结构 ,导致 了 7 号 外 显 子 彻底 地 从 成 熟 的 CYP3A5 的 
mRNA 中 删除 。 巾 此 产生 的 转录 在 183 位 氨基 酸 之 后 出 现 一 个 阅读 框 和 过 早 终止 密码 子 的 
转换 ,随后 就 导致 一 个 截断 的 ` 失 活 的 CYP3A5S 重 白质 出 现 。 

4. mRNA UTR SNP. 最 后 , SNP 可 能 位 于 成 玖 mRNA 的 5” 冰 或 3” 端 未 翻译 的 调控 区 
( UTR )。 虽 然 未 翻译 的 mRNA 不 能 编码 和 蛋 白 质 ,但 是 对 于 许多 基因 ,这 个 区 域 可 以 通过 二 级 

结构 的 形成 与 调控 蛋白 产生 互 作 ,增强 或 阻碍 mRNA 的 降解 来 改变 mRNA 的 稳定 性 或 直接 影 
响 重 日 质 的 翻译 效率 ,这 些 都 影响 了 和 蛋白 质 的 形成 速率 。 因 此 ,破坏 RNA 二 级 结构 的 SNP 可 
对 这 样 的 RNA 和 重 白 互 作 产生 不 利 的 影响 。 

一 个 已 经 被 证 明 的 例子 是 , Ts 基因 中 的 D 等 位 基因 通过 改变 RNA 和 蛋白质 互 作 来 
影响 基因 的 表达 。 该 基因 编码 胸 苷 酸 合成 酶 , 它 是 胸 苷 酸 从 头 合成 的 关键 酶 ,也 是 氟 尿 喀 
喧 等 抗 癌 药 的 治疗 靶 点 。D 等 位 基因 不 是 严格 意义 上 的 SNP, 它 是 一 段 由 6 个 核 苷 酸 构成 的 
DNA 伸 展区 (编码 RNA ), 这 段 DNA 被 插入 到 TYMS 基 因 中 的 3” -UTR 区 域 ,而 这 种 情况 在 大 
约 309%~40% 的 欧洲 日 人 中 存在 。 各 种 人 研究 表明 ,结合 并 促使 hnRNA 衰 变 的 核 和 蛋白 AUF-1 对 
TYMS 的 D 等 位 基因 编码 的 mRNA 有 着 高 度 的 亲和力 ,从 而 导致 在 TYMS 的 mRNA 表达 量 降低 。 

此 外 ,近年 来 的 研究 提示 一 种 新 的 值得 关注 的 机 制 : 位 于 mRNA 非 翻 译 区 的 SNP 通 过 改 
变 miRNA 的 结合 位 点 从 而 影响 基因 表达 。miRNA 是 内 源 性 基因 的 产物 ,有 着 非常 短 的 RNA 
分 子 , 这 些 RNA 分 子 通过 RNA 干 扰 机 制 调 控 基 因 的 表达 ,加 速 RNA 的 降解 ,抑制 其 翻译 ,或 者 
两 者 都 有 。 一 个 典型 的 例子 是 ,乳腺 癌 细 胞 中 高 表达 的 miRNA4-328 通 过 抑制 转运 子 ABCG2 
增强 了 米 托 章 醒 的 敏感 性 。 


(=) 插入 缺失 和 微 卫星 多 态 


尽管 不 如 SNP 普 这, 但 是 其 他 类 型 的 基因 突变 对 药物 基因 组 也 有 着 重要 的 影响 。 其 中 
最 笛 见 的 包括 简单 DNA 序 列 的 插入 和 缺失 ,其 范围 从 一 个 单个 的 DNA 碱 基 到 整个 基因 。 小 
的 缺失 往往 通过 和 SNP 一 样 的 方式 影响 基因 的 功能 , 相 比 较 于 简单 的 蔡 换 ， PRAE 
移 除 可 能 会 有 更 大 的 可 能 性 影响 基因 的 功能 。 

在 基因 的 重 日 质 编码 区 内 ,即使 是 相对 较 小 的 缺失 也 会 对 和 蛋白 质 的 功能 产生 严重 的 影 
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转变 ( 移 码 突变 ), 使 得 在 翻译 的 过 程 中 ,造成 碱 基 缺 失 之 后 ,所 有 的 氨基 酸 序列 都 被 很 大 程 
度 上 改变 ,而 且 总 是 遇 到 过 早 终止 密码 子 。 

缺失 的 一 种 特定 类 型 就 是 微 卫 星 多 态 性 。 微 卫星 ( 核 苷 酸 重 复 ) 是 一 段 DNA 区 域 ， 
其 中 包含 典型 的 重复 序列 ,这 种 重复 序列 包括 单 核 苷 酸 重 复 (ttttttttt ), — Ez RE S R 
( tatatatatata ), — TZ FREER ( tactactactac ) 以 及 更 高 形式 的 重复 。 这 些 重复 区 域 因为 DNA 的 
多 态 性 ,都 是 常见 位 点 ,这 导致 了 重复 的 扩张 ,可 能 与 它 经 过 的 DNA 聚 合 酶 产生 的 错误 有 关 。 

最 被 人 所 熟知 的 二 核 苷 酸 重 复 多 态 性 与 药物 基因 组 学 相关 的 例子 就 是 Gilber 综 合 征 , 在 
大 约 10% 的 欧洲 血统 的 白人 中 可 以 发 现 轻 度 未 结合 的 高 胆 红 素 血 症 。 这 种 综合 征 重 复 扩张 
Miata AK, tata 盒 位 于 编码 UDP- 和 葡萄 糖 醛 酸 转移 酶 (UGT ) 1A1 基 因 的 启动 子 内 ,这 种 酶 主 
要 负责 胆 红 素 的 结合 。 在 大 多 数 人 体内 ,在 5 末端 的 tata 盒 序列 延长 至 包含 了 6 个 “ta"” Bg 
复 ,然而 在 Gilbert 综 合 征 的 患者 中 有 7 个 (有 时 8 个 ) “ta” 的 重复 ,这 导致 了 UGT1A1 基 因 转 录 较 
少 。 有 趣 的 是 ,也 有 些 人 只 有 5 个 “ta" 重 复 , 相 较 于 有 6 个 “ta” 重 复 的 人 ,前 者 的 转录 水 平 更 高 。 

虽然 通常 由 于 很 低 的 UGT1A1 水 平 导 致 的 轻 度 未 结合 胆 红 素 血 症 几乎 没有 临床 症状 ， 
但 是 UGT1A1 也 是 很 重要 的 , 它 涉及 一 些 重要 药物 的 代谢 ,有 些 药物 有 相对 较 低 的 治疗 指数 。 
例如 , SN=38 经 过 UGTIA1 的 葡萄 糖 醛 酸化 以 后 就 失去 活性 , SN-38 是 伊 立 替 康 的 活性 代谢 
物 , 伊 立 蔡 康 是 一 种 治疗 转移 性 结肠 况 的 药物 。 一 些 临 床 研 究 表明 ,携带 UGTI1A1*28 等 位 基 
因 的 患者 有 更 大 的 风险 患 有 骨髓 抑制 ,痢疾 及 其 他 不 良 反 应 ,这 可 能 是 由 于 绥 慢 消除 和 增加 
SN-38 作 用 的 结果 。 然 而 ,最 近 的 研究 表明 ，UVG77471*28 基 因 型 的 毒性 预测 值 可 能 会 减少 重 
复 的 伊 立 蔡 康 给 药 。 在 UGTI141*28 纯 合子 患者 中 观察 到 的 肿瘤 应 答 率 (药物 疗效 的 指标 ) 
会 更 高 ,可 能 是 由 于 癌 组 织 中 增强 SN-38 的 作用 。 由 此 推断 , UGTI471*28 可 能 影响 药物 的 疗 
效 和 毒性 。 


(=) 基因 拷贝 数 多 态 性 


相对 于 前 面 提 到 的 两 类 多 态 , 更 大 规模 的 DNA 重 排 ,会 导致 部 分 或 整个 基因 的 缺失 或 
复制 。 整 个 基因 的 缺失 和 复制 属于 基因 拷贝 数 突 变 。 

CYP2D6 基 因 是 这 种 重要 的 基因 结构 改变 的 典型 例子 ,这 种 改变 对 许多 临床 上 很 重要 的 
药物 的 代谢 有 重要 影响 。CYP2D6*3 等 位 基因 出 现在 1%~7% 的 人 口中 , 它 与 整个 CYP2D6 基 
因 的 缺失 , CZP2D6 完 全 丧失 活性 以 及 不 恨 代 谢 表 型 有 关 。 相 比 之 下 ,多 达 13 个 C7P2D6 基 
因 的 功能 拷贝 已 经 被 证 实 存在 于 一 些 个 体 当 中 ,通过 这 种 酶 的 代谢 导致 药物 的 超 高 清除 率 。 
虽然 在 亚洲 、 非 洲 黑 人 、 欧 洲 白人 的 人 群 中 相对 罕见 , CYP2D6 基 因 的 复制 在 某 些 东 部 非洲 
人 群 (埃塞俄比亚 人 ) 中 高 达 29%。 其 他 药物 基因 组 学 中 重要 的 基因 拷贝 数 多 态 的 例子 包括 
CYP246( 在 CYP246*4 在 15% 的 亚洲 人 口中 缺失 )、 UG7T2B17( 在 11% 至 12% 的 白人 与 黑人 中 
缺失 )、 磺 基 转 移 酶 1A1( 在 26% 的 欧洲 白人 和 63% 的 非 毅 美国 人 中 复制 )、 谷 胱 甘 肽 、S -转移 
梅 M1( 在 50% 至 60% 的 白 种 欧洲 人 中 缺失 ), 谷 胱 甘 肽 - S -转移 酶 T1( 在 10% 至 15% 的 欧洲 日 
人 中 缺失 )。 目 前 为 止 还 未 确定 的 基因 拷贝 数 变异 极 有 可 能 有 助 于 药物 基因 组 学 发 展 。 


(四 ) 其 他 DNA 序 列 突变 
其 他 与 药物 基因 组 相关 的 涉及 超过 一 个 核 车 酸 差 异 的 基因 突变 包括 符 换 (一 个 序列 与 
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基因 中 插入 序列 ) 以 及 转换 (一 个 基因 中 的 部 分 序列 变 为 另 一 个 基因 中 的 序列 )。 

CYP347*1C 等 位 基因 是 一 个 转换 的 例子 。 这 种 突变 可 能 是 由 于 CYP347 基 因 的 一 部 分 
重要 的 启动 子 变 为 了 CYP344 基 因 的 局 动 子 。 这 种 变化 导致 了 DNA 序 列 元 件 的 增加 ,这 种 元 
件 对 于 结合 核 受 体 转录 因子 孕 烷 -X 受 体 (PXR ) 十 分 必要 ,在 CYP347 中 通常 不 会 发 现 雄 烷 
受 体 ( CAR ), 尽 管 CYP347 通 第 被 认为 是 胎儿 特定 的 亚 型 ,但 是 携带 CYP347*1C 的 个 体 ( 10% 
白 种 欧洲 人 ) 更 可 能 在 他 们 的 肝脏 和 小 肠 中 表达 大 量 的 CYP3A7 和 蛋白 ,导致 一 些 CYP3A 底 物 
更 高 的 清除 率 。 


(五 ) 等 位 基因 命名 


DNA 序 列 变 异 十 分 复杂 ,所 以 有 必要 具有 一 个 相对 人 简单 而 精确 的 系统 来 为 基因 组 的 序 
列 突变 命名 。 人 类 基因 组 变异 协会 (http: //www.hgvs.org/mutnomen/ ) 已 经 提出 这 样 的 系统 。 
在 这 个 系统 中 , DNA 序 列 中 核 苷 酸 变化 的 描述 是 相对 于 序列 数据 库 中 参考 序列 而 言 的 。 例 
如 ,一 个 常见 SNP“CYP2B6 g.15631g>t”, CYP2B6 是 一 个 包含 变异 的 基因 ,“g” 表 明 它 是 基因 
组 上 的 DNA,“15631” 表明 变异 碱 基 对 出 现 的 相对 位 置 ,通常 从 基因 中 编码 蛋白 起 始 密码 子 
的 第 一 个 核 苷 酸 算 起 。”“g>tf” 表明 在 参照 序列 中 , 乌 嗓 叭 C 被 变异 序列 中 的 胸腺 喀 啶 T 蔡 换 。 
一 般 地 ，DNA 参 照 序列 应 来 目 于 RefSeq 数 据 库 ,而且 应 该 包含 数据 库 登 录 号 .版 本 号 还 有 序 
列 中 起 始 密码 子 腺 嗓 叭 的 位 置 。 这 个 系统 稍 作 变化 就 可 以 用 来 描述 基因 产物 的 变化 ,比如 
"CYP2B6 r.516g>u” ( g= HE , u= 尿 喀 啶 ),“CYP2B6 c.516g>t,” LAA “CYP2B6 p.Q172H" 
(ORAR, H= 组 氨 酸 ), 描 述 对 于 相同 的 CYP2B6 SNP, ,在 预测 的 mRNA 、cDNA 以 及 和 蛋白 序 
列 中 相应 的 变化 。 

HAT, dbhSNP 数 据 库 收录 了 主要 的 人 类 SNP 以 及 短 的 插入 或 缺失 变异 。 在 该 数据 库 中 ， 
为 了 识别 和 检索 ,所 有 的 已 核实 的 SNP 已 经 被 指定 了 一 个 参照 SNP 号 码 以 rs 开头 。 例 如 ， 
CYP2B6 g.15631g>thJRefSNP ID 就 是 rs3745274。 这 些 SNP 数 据 ,包括 人 类 基因 组 序列 还 被 
整合 到 其 他 数据 库 中 ,以 至 于 能 够 对 于 一 个 给 定 的 基因 ,我 们 可 以 识别 它 的 绝 大 多 数 SNP。 
dbSNP 还 提供 了 其 他 相关 信息 ,包括 不 同 种 族 和 群体 的 SNP 类 型 ( 编码 还 是 同 义 ), 一 些 SNP 的 
基因 型 ,和 等 位 基因 频率 。 

这 个 系统 恰当 地 描述 了 基因 序列 的 单 碱 基 变 异 , 但 是 当 描 述 同 一 个 等 位 基因 的 多 个 
序列 变异 (如 单 体型 ) 时 , 便 显得 过 于 繁复 了 。 因 此 ,人 类 基因 组 组 织 ( HUGO ) 已 经 提出 了 
下 面 的 等 位 基因 命名 系统 , 它 能 够 描述 复杂 的 等 位 基因 突变 。 这 个 系统 已 经 被 CYP 等 位 基 
因 命 名 委员 会 采纳 ,命名 新 等 位 基因 的 完整 规则 可 在 网 上 获得 。 简 单 地 说 , “参照 ”基因 序 
列 被 指定 为 1, 比如 CYP2B6*1 ,这 就 是 CYP2B6 基 因 的 参照 序列 。 相 应 的 蛋白 质 产物 被 称 为 
CYP2B6.1。 如 果 第 一 个 序列 的 变异 确定 会 有 功能 相关 的 影响 , 它 将 被 指定 为 *2 ,随后 的 突变 
被 指定 为 一 个 新 数字 ,这 个 数字 按 提交 的 先后 顺序 依次 增加 ,比如 在 CYP2B6*2、CYP2B6*3、 
CYP2B6*4 , CYP2B6*5 和 CYP2B6*6 中 的 *3、*4、*5、*6 等 。 相 应 的 蛋白 质变 异 为 CYP2B6.2， 
CYP2B6.3, CYP2B6.4, CYP2B6.5 和 CYP2B6.6。 对 于 其 他 尚 无 法 确定 功能 的 基因 变异 ,例如 
与 已 知 SNP 连 锁 的 同 义 SNP 内 含 子 中 的 变异 .启动 子 中 的 变异 等 子 群 ,可 以 通过 添加 一 个 字 
母 的 方式 来 区 分 标注 ,比如 CYP2B6*6B。 

目前 ,基因 或 特定 疾病 的 命名 委员 会 已 经 负责 命名 新 的 等 位 基因 变异 ,也 负责 维护 已 
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知 等 位 基因 的 可 获得 参考 文献 列表 。 大 量 特定 基因 变异 数据 库 的 列表 可 以 通过 URL http: // 


www.genomic.unimelb.edu.au/mdi/dblist/glsdb. html 4k4¢ < 


三 .药物 基因 组 学 生物 标记 的 预测 》》 


有 两 种 主要 的 方法 可 用 作 预 测 影 啊 药 效 的 基因 组 变异 ( 即 SNP 等 生物 标记 ) 一 一 候选 基 
因 分 析 和 全 基因 组 分 析 ( 图 12-10 )。 这 两 种 分 析 方 法 中 , DNA 样 本 是 从 给 药 人 群 中 获得 的 ， 
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图 12-10 识别 药物 基因 组 学 生物 标记 的 方法 


S920 587—388 药物 生物 信息 学 


CHA APTER 12 PHARMACOBIOINFORMATICS ; REV OLUTIO NIZING DRUG D SCOVERY RE SEARC H 
这 些 人 需要 在 一 个 事先 确定 的 时 间 点 检测 药物 的 反应 状态 (有 效 TOI BS BIS) DAP 
得 出 的 结果 变量 称 为 药物 表 型 ( drug phenotype )。 表 型 可 以 是 二 元 变量 (如 有 效 和 无 效 ), 也 
可 以 是 连续 变量 (如 患者 维持 药物 剂量 )。 


(一 ) 候选 基因 分 析 法 


这 种 方法 有 一 个 前 提 条 件 ,就 是 需要 事先 知道 参与 药物 反应 .影响 药物 效应 的 基因 。 
般 地 ,候选 基因 包括 编码 药物 代谢 酶 的 基因 ,编码 吸收 和 排除 的 转运 蛋白 的 基因 \ 编 公约 物 
靶 标 受 体 或 酶 的 基因 。 该 方法 通常 是 先 确 定 给 药 个 体 的 表 型 ,然后 检测 候选 基因 中 SNP 等 
遗传 变异 在 给 药 群 体 中 的 状态 ,最 后 应 用 统计 学 方法 分 析 表 型 一 基因 型 间 的 关系 ,从 而 鉴别 
可 用 于 预测 不 同 药物 反应 的 遗传 学 标记 。 通 第 ,这 些 分 析 也 能 够 解释 种 族 、 年 龄 和 性 别 等 其 
他 重要 的 协 变量 。 


(二 ) 全 基因 组 分 析 方 法 


全 基因 组 的 连锁 不 平衡 分 析 是 遗传 学 中 鉴别 致 病 基因 的 经 典 方法 ， pide i Ra 
方法 发 现 新 的 药物 基因 组 学 生物 标记 。 这 类 方法 不 需要 药物 应 答 机 制 的 先 验 知 识 , 因 此 , 它 
们 会 发 现 一 些 之 前 与 感 兴趣 药物 没有 联系 的 基因 。 最 初 的 分 析 对 象 是 一 个 具有 民 好 特性 的 
遗传 标记 集合 ,通常 是 分 布 在 基因 组 中 的 多 态 性 位 点 ( 微 卫星 和 SNPs ), 其 基因 型 结 末 跟 药物 
表 型 是 相关 的 。 一 个 与 表 型 高 度 相关 的 基因 组 区 域 会 被 检测 出 具有 高 密度 的 遗传 标记 , 直 
到 一 个 特别 地 基因 被 检测 出 来 ,从 这 个 基因 序列 中 可 能 会 直接 的 识别 出 新 的 遗传 变异 ,这些 
遗传 变异 是 和 药物 表 型 预测 是 高 度 相关 的 。 


(=) 连锁 不 平衡 . 单 体型 和 标签 SNPs 


鉴别 基因 变异 位 点 的 一 个 重要 特征 是 连锁 不 平衡 。 连 锁 不 平衡 是 指 在 染色 体 上 距离 相 
对 很 近 的 位 点 倾向 于 共同 遗传 。 高 度 连锁 的 基因 变异 位 点 称 为 单 体型 ,在 很 多 例子 中 单 体 
型 被 排列 在 DNA 不 连续 的 区 域 中 , 称 为 单 体型 区 块 ( haplotype blocks ), 这些 区 块 是 被 基因 重 
组 的 热点 ( gene recombination hotspots ) 分 隔 开 的 (图 12-11 )。 因 此 ,没有 必要 定位 精确 的 与 
表 型 成 因 有 显著 关系 的 变异 位 点 ,这 些 显著 关系 在 同 个 单 体型 区 块 中 的 其 他 变异 位 点 中 也 
能 找到 。 

随 着 高 通 量 全 基因 组 SNP 微 阵列 的 出 现 , 使 得 一 步 完 成 全 基因 组 基因 型 检测 成 为 可 能 。 
虽然 最 终 有 可 能 实现 对 基因 组 中 全 部 SNP 的 鉴别 ,但 是 这 个 并 不 是 必要 的 ,因为 如 前 面 所 说 
的 ,许多 的 SNPs 是 位 于 同一 个 单一 型 中 的 ,因此 对 每 个 SNP 进 行 检测 是 见 余 的 。 一 个 非常 
严格 ( parsimonious approach ) 的 方法 就 是 对 特别 的 单 体 型 选 出 一 个 SNPs 的 最 小 集合 , 称 为 
单 体型 标签 SNPs( tag SNPs 或 tSNPs )。 图 12-12 展 示 了 一 种 鉴别 单 体型 中 tSNPs 的 方法 。 为 
了 绘制 出 全 人 类 基因 组 的 全 部 单 体 型 ,国际 人 类 基因 组 单 体型 图 计划 ( international HapMap 
project ) 已 完成 对 tSNPs 的 鉴别 。 为 了 验证 这 种 方法 ,一 个 由 904 个 SNPs 构 成 的 集合 最 近 被 鉴 
别 出 来 ,还 发 现 其 代表 了 参与 人 类 药物 代谢 和 人 处置 的 55 个 基因 的 大 部 分 遗传 变异 ,这 意味 看 
ISNPs 将 在 识别 新 的 药物 基因 组 标记 中 有 广泛 的 应 用 。 

一 个 很 重要 的 问题 是 从 一 个 给 出 的 参考 人 群 中 鉴别 出 的 ItSNPs 在 不 同 的 人 群 中 是 否 具 
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图 12-11 连锁 不 平衡 定义 单 体型 块 边界 

本 例 中 检测 了 54 个 白 种 人 个 体 的 UGT774 基 因 的 SNPs, 测 序 范 围 长 约 150 000bp， 
包括 外 显 子 1 区 ,调控 区 5 -UGTs 1A9、1A6. 和 1Al ,以 及 3' -UTR 区 。UGT 的 连锁 
不 平衡 应 用 软件 LDPlotter( https: //www.pharmgat .org/Tools ) 中 的 回归 分 析 评 
价 。 图 中 ,圆圈 的 灰 度 代表 每 对 SNP 比 较 的 回归 值 。 分 析 结 果 表 明 , 两 个 不 同 的 
连锁 不 平衡 区 域 , 块 1 (UGT1A9,1A6, and 1A1 SNPs ) 和 块 2 ( 3” 一 UTR SNPs), #L 
有 块 内 高 "和 块 间 低 r* 的 特点 。 可 见 ,分 开 的 单 体型 块 可 以 用 于 描述 这 些 区 域 的 
遗传 变异 


有 可 转移 性 。 一 项 关于 $2 个 不 同人 群 的 研究 表明 这 种 可 能 是 存在 的 ,从 这 些 人 和 群 中 鉴别 出 
的 83% 的 共有 的 单 体型 在 产生 国际 人 类 基因 组 单 体型 图 的 人 群 中 也 是 共有 的 。 然 而 ,一 个 
重要 的 警告 是 随 着 假定 的 从 非洲 起 源 的 人 类 祖先 的 遗传 距离 的 缩小 , 单 体型 的 多 样 性 在 增 
加 。 结 果 , 很 有 必要 补充 一 大 部 分 共有 的 ItSNPs 和 人 和 群 特 异 的 ItSNPs ,特别 是 在 那些 很 多 近代 
非洲 祖先 的 人 和 群 中 。 

在 基因 组 范围 内 对 表 型 与 基因 型 联系 的 全 究 有 一 个 重大 隐患 ,是 由 多 重 检 验 引 起 的 浴 
在 的 大 量 假 阳 性 联系 。 例 如 ,对 500 000 个 SNPs 进 行 单 变量 分 析 , 如 果 采 用 a 为 0.05 ,理论 上 会 
有 25 000 个 假 阳 性 的 结果 。 哩 然 假 阳 性 率 可 以 通过 矫正 p 值 来 减 小 ,如 Bonferroni、FDR 等 多 
重 检验 校正 ,但 是 这 同样 也 会 消除 一 些 比较 弱 的 关联 关系 ,而 这 些 关 系 可 能 仍 与 表 型 的 决定 
有 关 。 折 中 的 办 法 是 ,选择 那些 有 最 强 关 联 的 变异 ,同时 通过 文献 或 额外 的 实验 来 验证 所 发 
现 表 型 相关 基因 的 生物 学 意义 。 而 且 , 在 候选 基因 和 全 基因 组 方法 中 ,非常 重要 的 是 要 通过 
对 不 同 患 者 人 群 的 独立 研究 来 证 实 找到 的 药物 基因 组 标记 的 通用 性 。 

由 于 全 基因 组 分 析 方 法 主要 是 用 相对 常见 的 SNPs( 通 常 是 >5% 的 等 位 基因 频率 ), 这 将 
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图 12-12 单 体型 分 析 与 tagSNP 识 别 

本 例 中 ,一 个 约 10 000bp 长 的 基因 在 100 个 个 体 中 测序 ,并 应 用 程序 

fastPhase (http: //www.stat.washingtonedu/stephens/software.htm] ) 推断 单 

体型 ,结果 识别 出 两 个 高 连锁 区 域 ( 区 域 1,10~3065bp; K 33.2, 7027 ~9998 )。 

每 个 区 域 中 最 常见 得 单 体型 与 Genebank 参 考 序 列 一 致 ,定义 为 单 体型 1。 对 

于 变异 单 体 型 开 到 V ,不 同 于 参考 序列 的 SNPs 特 异地 属于 每 个 变异 单 体型 ( 灰 

& )。n 为 被 研究 群体 中 上 共有 该 单 体型 的 染色 体 数 目 
无 法 识别 出 罕见 SNPs 或 其 他 序列 变异 。 单 个 的 罕见 变异 有 潜在 的 能 力 (是 从 完全 的 基因 失 
活 来 说 ) 在 一 个 特别 的 个 体 中 对 药物 表 型 产生 显著 的 影响 ,然而 ,多 个 罕见 变异 产生 的 累积 
效应 有 助 于 人 和 群 总 体 的 表 型 多 样 化 。 因 此 ,目前 急需 兼顾 候选 基因 分 析 和 全 基因 组 分 析 两 
种 策略 的 新 方法 。 


(四 ) 药物 基因 组 学 生物 标记 资源 


目前 生成 的 大 量 药 物 基因 组 数据 ,非常 需 要 一 个 统一 的 资源 来 访问 这 些 信息 。 许 多 在 
线 的 数据 库 提供 预测 信息 来 判定 遗传 变异 与 药物 反应 之 间 的 联系 。 第 一 个 也 是 目前 最 全 面 
的 一 个 数据 库 是 药物 基因 组 学 和 遗传 药理 学 数据 库 PharmGKB ( http: //www.pharmgkb.org Jo 
PharmGKB 提 供 药 物 基因 ( pharmacogenes , 如 对 药物 反应 有 明确 影响 的 基因 ) 的 超 链 接 注 释 
言 息 。 这 些 信息 是 从 多 个 资源 中 收集 来 的 ,包括 发 表 的 文献 、NIH 资 助 的 遗传 药理 学 实验 ， 
和 其 他 一 些 学 术 和 商业 的 资源 。 所 有 NIH 资 助 的 项 目 都 要 将 其 药物 基因 组 的 信息 放 到 这 个 
数据 库 中 。 


四 药物 基因 组 学 生物 标记 的 应 用 >> 


约 物 基 因 组 学 生物 标记 通过 各 种 途径 指导 临床 医师 给 药 。 这 些 生 物 标 记 的 一 个 主要 
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用 途 就 是 判断 一 个 患者 的 肿瘤 是 否 会 对 一 种 特定 药物 产生 反应 ,这 是 要 看 这 个 基因 的 表 
达 产 物 是 否 会 被 该 药物 所 靶 回 。 例 如 ,将 病 患 体 内 EGFR 过 表达 的 检测 结果 ,作为 是 否 采用 
西 妥 痛 单 抗 治疗 转移 性 直肠 癌 和 头 颂 癌 患 者 的 依据 。 男 一 个 例子 是 ,用 曲 受 单 抗 治 疗 乳 
腺 癌 患 者 前 需要 确认 HER2/neu 的 过 表达 状态 。FDA 颁 布 的 相关 药物 标签 信息 ( drug label 
information ) 中 明确 指出 ,在 给 患者 使 用 曲 妥 单 抗 等 药物 前 必须 检测 相关 的 药物 基因 组 生物 
标记 。 制 定 这 样 的 规范 是 因为 ,最 初 认定 的 药物 治疗 作用 数据 是 从 被 检测 出 阳性 反应 的 患 
者 中 得 到 的 ,而 后 续 人 研 究 的 结果 文 持 它们 的 有 效 性 ,例如 多 个 研究 报道 了 曲 妥 单 抗 对 HER2/ 
neu 过 表达 阳性 的 乳腺 癌 患 者 具有 更 好 的 疗效 。 

最 近 , FDAN ,在 药物 使 用 前 ,应 对 两 种 新 的 药物 基因 组 生物 标记 进行 检测 (但 不 是 必 
须 的 ) 它们 是 , TPMT tithes HA SEF RS BE) 的 *2 和 *3 等 位 基因 和 UGTIA41*28 等 位 基因 。 携 
带 TPM7 纯 合子 变异 的 白血病 患者 在 使 用 咪唑 硫 味 叭 或 6- 琉 基 味 叭 治疗 时 将 增加 严重 骨髓 
抑制 的 风险 ,而 携带 VCT7747 纯 合子 变异 的 转移 性 结肠 癌 患 者 在 使 用 伊 立 替 康 治 疗 是 同样 会 
增加 骨 散 抑制 的 危险 。 在 这 两 个 例子 中 ,与 杂 合 子 和 野生 型 患者 相 比 , 纯 合 子 变异 的 患者 的 
初始 用 药剂 量 显 车 减少 ,不 过 减少 的 程度 没有 明确 的 列 出 。 在 药物 标签 信息 中 提供 的 大 多 
数 其 他 药物 基因 组 生物 标记 只 是 出 于 提供 信息 的 目的 ,而 不 是 关于 检测 目的 。 关 于 被 批准 
药物 标签 的 一 个 全 面 的 .已 证 实 的 药物 基因 组 生物 标记 的 列表 通过 FDA 的 网 站 查询 。 

除了 在 药物 治疗 之 前 做 检测 之 外 ,也 有 很 多 情况 是 在 治疗 过 程 中 检测 的 。 例 如 ,在 对 
HIV 感 染 患者 的 治疗 过 程 中 ,可 以 监测 到 病毒 的 基因 型 改变 ,并 且 在 抵抗 表 型 出 现 的 时 候 调 
整 药物 用 量 。 同 样 的 方法 也 可 以 用 于 其 他 感染 性 疾病 以 及 在 癌症 治疗 中 的 耐 药 等 情形 。 
(HFA 和 人 徐 建 饥 al &) 
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p -转角 

AM 

BLAST 


BLOSUM 

cDNA 芯片 

DNA 甲 基 转 移 酶 
DNA 甲 基 转 移 酶 3 Like 
DNA 甲 基 转 移 酶 3A 
Donna Maglott 

FN 

FP 

general protein/mass analysis for windows 
GPCR mode 

kilt ^p 

k 均 值 聚 类 

MIM 

MLE 

n 倍 交叉 证 实 

Oligomer modeling 


PDB 数据 库 


B -strand 


beta-globin 
B -sheet 

B —turn 

Q loop 


association method 
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285 
285 
154 


154 
155 
155 
198 


basic local alignment search tool ,基本 局 部 联 配 


搜索 工具 


block substitution matrix 
cDNA microarray 

DNA methyltransferase 
DNMT3L 

DNMT3A 


false negative 

false positive 

GPAMW 

G 和 蛋白 偶 联 受 体 模式 
k—nearest neighbor 

k—means clustering 
Mendelian inheritance in man 
maximum likelihood estimation 
n—fold cross validation 
FREAK 

protein data bank, PDB 
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RNA 测 序 


RNA 诱 导 的 沉默 复合 物 


S-AR PMAR 
TN 

TP 

X- 射 线 晶 体 分 析 法 
Z 值 


T XEDS 2B fa Pr T X 


癌症 差异 甲 基 化 区 域 


安琪儿 综合 征 


贝 - 威 二 氏 综 合 征 
比 对 界面 

比较 基因 组 学 
比较 模 建 法 

表达 数量 性 状 位 点 
表达 序列 标签 

表 观 遗传 变异 
表 观 遗传 学 


参考 序列 
测试 集 
层次 聚 类 

插 人 /删除 多 态 
差异 甲 基 化 的 区 域 
差异 甲 基 化 区 域 
差异 甲 基 化 杂交 
缠绕 法 

超 二 级 结构 

超 家 族 

沉默 子 


重 编程 差异 甲 基 化 区 域 


重 抽样 

EA 

重复 序列 

重 亚 硫 酸 盐 测序 











RNA-seq 


RNA-induced silencing complex, RISC 


SAM 

true negative 

true positive 

X-ray diffraction crystallography 


Z-score 


A 


cancer genome anatomy project, CGAP 


C-DMRs 


Angelman syndrome 

B 
Beckwith-Wiedmann syndrome 
Alignment Interface 


comparative genomics 


comparative modeling 


expression quantitative trait loci, eQTL 


expressed sequence tag, EST 
epimutations 


epigenetics 
C 


reference sequence 

test set 

hierarchical clustering 

In/Del 

differentially methylated region, DMR 
DMRs 

DMH 

wrapper method 

supersecondary structure 


super family 


R-DMRs 
re-sampling 
contig 


repetitive sequence 


BS-seq 


468 
409 
457 
112 
112 
162 
194 


372 
473 
466 


466 
181 
7, 233 
180 
392 
21, 43 
483 
456 


78 

111 
102 
376 
466 
473 
459 
92 

155 
169 
289 
473 
111 
43 

61 

469 


重 亚 硫 酸 盐 测序 技术 


重 亚 硫 酸 盐 甲 基 化 谱 
初始 miRNA 
传递 不 平衡 检验 
串联 重复 数据 库 
磁 共 振 

从 头 预测 方法 


代谢 通路 
代谢 网 络 进 化 
LRAT PRE STE 
LRAT IE A ASHE 
单亲 二 倍 体 
单 体 

单元 

a AE Xt 

8 ER 

和 蛋白质 互 作对 


集 日 质 结构 分 类 数据 库 


和 蛋白质 结 构 域 
蛋白 质 组 学 


等 位 


等 位 基因 特异 性 甲 基 化 


点 突变 可 接受 算 隆 


BER 


短 串 联 重复 DNA 数 据 库 


断裂 基因 
对 照 细 胞 

多 重 命中 

多 基因 病 

A Bit A X A 
多 维度 标 度 技术 
多 序列 比 对 


二 分 网 络 
二 级 结构 
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bisulphite conversion followed by capture and 


sequencing, BC-seq 

bisulfite methylation profiling, BiMP 
primary RNA, pri-RNA 

transmission disequilibrium test, TDT 
tandem repeats database , TRDB 
nuclear magnetic resonance, NMR 


Abinitio 
D 


metabolic pathway 

metabolic network evolution 

single nucleotide polymorphisms , SNPs 
single-nucleotide polymorphism , SNP 
UPD 

monomer 


singletion 


protein interaction pair 

structural classification of protein, SCOP 
protein domain 

proteomics 

allele 

ASM 

point accepted matrix, PAM 

dot matrix 


read 


461 


460 
408 
381 
28 

163 
180 


337 
238 
375 


467 
157 
228 
236 
505 
236 
168 
169 
11 

375 
489 
34 

S4 

424 


short tandem repeat DNA internet database, 


STRBase 

interrupted gene 

control cell 

multiple hit 

ploygenic disorder 

polycomb group protein, PcG 
multi-dimensional scaling, MDS 


multiple sequence alignment 


E 


bipartite network 


secondary structure 


28 


56 
76 
229 
368 
478 
187 
43 


333 
154 
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发 育 差异 甲 基 化 区 域 
发 育 重 编程 
反馈 环 

反 转 录 

飞 摩尔 
非 编 码 RNA 

非 编 码 RNA 数 据 库 
非 翻译 区 

非 共 价 键 形 式 
非 同 义 SNP 
分 层 聚 类 法 

分 类 系统 理论 
分 裂 法 

分 子 病 

分 子 量 

分 子 钟 

峰值 探测 

负 选 择 

复合 体 

复杂 疾病 


高 分 值 片段 对 
高 通 量 组 学 

个 体 化 治疗 

个 体 间 的 差异 甲 基 化 区 域 
个 体内 的 差异 甲 基 化 区 域 
工程 模式 

功能 基因 组 学 

供 体位 点 

共性 序列 

共有 序列 

SER BS 

关联 人 研究 

光纤 微 珠 必 片 

国际 人 类 单 体 型 图 计划 
国际 人 类 基因 组 单 体型 图 计划 


D-DMRs 

developmental reprogramming 
feedback loop 

reverse transcription 
femtomole 

non-coding RNA 
noncoding RNA database 
untranslated region, UTR 
non-covalent 
non-synonymous SNP 
hierarchical clustering 
system of taxonomy 
divisive 

molecular disease 
molecular weight, MW 
molecular clock 

peak calling 

negative selection 
complex 


complex disease 


G 


high-scoring pairs, HSPs 
high-throughput omics 
personalized medicine 
Inter-DMRs 

Intra-DMRs 

Project mode 

functional genomics 

donor 

consensus sequence 

consensus sequence 
oligonucleotide microarray 
association study 

beadarray microarray 
international HapMap project, HapMap 
The International HapMap Project 


473 
489 


76 

164 
424 
28 

408 
198 
376 
54 

145 
102 
202 


224 
464 
226 
203 
368 


40 
6 

9 

473 

473 

181 
5,8,118,233 
58 

43 

288 

77 

380 

79 

382 


过 出 现 
过 滤 法 


罕见 疾病 

核酸 
核糖 体 RNA — 
核心 启动 子 
后 基因 组 

后 基因 组 学 
互补 对 
化 学 交 联 

环境 基因 组 计划 
葵 茜 标志 物 


肌 球 蛋白 
基因 本 体 论 

基因 表达 谱 

基因 复制 
基因 富 集 分 析 
基因 图 谱 

基因 芯片 

基因 型 
基因 组 tRNA 数据 库 
基因 组 测序 序列 
基因 组 范围 关联 人 研究 
基因 组 功能 注释 
基因 组 学 
基于 多 维 标 度 技术 
基于 相似 性 方法 
集 富 集 分 析 

加 权 网 络 

家 族 

甲 基 化 CpG 岛 扩 增 法 
甲 基 化 DNA 免 疫 共 沉 演 测 定 技术 
甲 基 化 测序 

甲 基 化 间 区 位 点 扩 增 
甲 基 化 敏感 切割 位 点 计数 


over—presentation 


filter method 


H 


rare disease 


rRNA 


post—genomics 

post—genomics 

complementary pairs 
cross-linking 

environment genome project, EGP 


Meta-signature 


myoglobin 

gene ontology 

gene expression profile 

gene duplication 

gene set enrichment analysis, GSEA 
gene map 

gene chip 

genotype 

genomic tRNA database, GtRDB 
genome survey sequences , GSS 
genome-wide association study, GWAS 
genome annotation 

genomics 

MDS 

similarity-based approaches 

gene set enrichment analysis 
weighted network 

family 

methylated CpG island amplification, MCA 
MeDIP 

Methyl-seq 

AIMS 


methylation-sensitive cut counting, MsCC 
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140 
92 


368 
505 
284 
288 
118 
5,8 
198 


369 
507 


139 


19 
375 
28 

21 
389 

8, 118 


194 
193 
479 
333 
157 
459 
458 
460 
459 
460 
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甲 基 化 敏感 随机 性 引物 PCR 


甲 基 化 数量 性 状 位 点 

假 基 因数 据 库 

简捷 模式 

简约 信息 位 点 

简约 重 亚 硫 酸 盐 测序 技术 


PELE LARC 
结 点 系谱 
结构 风险 最 小 化 原则 


结构 基因 组 学 
结构 域 

介 数 

进化 创新 
进化 基因 组 学 
进化 论 

兆 化 选择 

局 部 表面 特征 
聚 类 分 析 
聚 类 系数 
卷曲 

卷曲 螺旋 
RRS 

均衡 正确 率 


开放 读 码 框 
拷贝 数 变 异 
拷贝 数 变异 
可 变 模板 结构 
空位 
空位 罚 分 
空位 扩展 
空位 设置 


冷冻 电子 显微镜 


methylation-sensitive arbitrarily primed PCR, MS- 


AP-PCR 

methQTLs 
PseudoGene 

First Approach mode 


parsimony-informative site 


reduced representation bisulphite sequencing, 


RRBS 
yeast two Hybrid, Y2H 


Term Lineage 


structural risk minimization inductive principle, 


SRM 

structural genomics 
domain 

betweenness 
evolutionary innovation 
evolutionary genomics 
theory of evolution 
purify selection 

local surface patterns, clefts 
cluster analysis 
clustering coeffcient 
coil 

coiled—coil 

decision tree 


balanced accuracy 


K 


Open Reading Frame, ORF 
copy number variants, CNV 


copy number variant, CNV 


alternative template structures 


Bap 
gap penalty 


gap extension 


gap opening 


a 


cryoelectron microscopy 


459 


489 
24 

181 
223 


461 


334 
122 


110 


233 


156, 


343 
226 
233 
145 
226 
196 
98 

343 
155 
67 

108 
112 


163 


157 


连锁 块 
连通 度 或 度 
联 亲 和 纯化 -质谱 


AKAM Hel EA VILE 
^t AI BE 
留 一 法 交叉 证 实 


美国 国家 生物 技术 信息 中 心 
美国 国立 生物 技术 信息 中 心 


倪 疫 共 沉 演 
敏感 性 

模糊 功能 结构 
模块 化 测度 
模拟 退火 算法 
模式 识别 
模 体 

模 体 


凝聚 法 
欧洲 分 子 生物 学 人 研究 中 心 


劳 系 同 源 
劳 系 同 源 体 

配对 比 对 

偏 序 图 

平均 距离 

评价 准则 

普 瑞 德 威 利 综合 征 


linkage block 

degree 

tandem affinity purification — mass spectrometry , 
TAP-MS 

sickle-cell anemia 

leucine zipper 


leave—one—out cross validation, LOOCV 


M 


NCBI 

national center for biotechnology information, 
NCBI 

co-immunoprecipitation 

sensitivity 

fuzzy functional forms, FFFS 

modularity measure 

simulated annealing algorithm 


pattern recognition 


motif 
Motif 

N 
agglomerative 

O 
EMBL 

P 
paralogy 
paralogs 


pairwise alignment 
partial-order graph 
average distance 
evaluation criteria 


Prader-Willi syndrome 


Q 
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376 
342 


334 


202 
156 
112 


20 


113 


334 
112 
193 
349 
90 

164 
428 
58 


102 


20 


32 
32 
45 
47 
344 
89 
466 


287 
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发 式 搜 索 

FAK 

前 馈 环 

前 体 miRNA 

切割 点 

全 基因 组 乌 枪 重 亚 硫酸 盐 测序 


=k ol 


全 面 高 通 量 芯片 相对 甲 基 化 技术 


质 
染色 质 免 疫 共 沉 淀 -测序 
染色 质 免 疫 共 沉淀 -芯片 
热点 
热 图 
人 类 表 观 基因 组 计划 
人 类 基因 组 计划 
日 本 的 DNA 数 据 库 


三 维基 序 

上 位 效应 
生物 标记 
生物 信息 学 
生物 学 标记 
实验 细胞 

受 体位 点 
树 长 

数据 标准 化 
数量 性 状 位 点 
双向 搜索 
双重 的 负 反 馈 环 
顺序 

搜索 策略 
随机 缠绕 
随机 搜索 


heuristic search 
leader peptide 
Feed-forward Loop 
pre-miRNA 

cut point, CP 


whole-genome shotgun bisulfate sequencing, 


WGSBS 


comprehensive high-throughput arrays for relative 


methylation, CHARM 
R 


ChIP 


chromatin immunoprecipitation sequencing, 


ChIP-seq 
ChIP-chip 
hot spots 


heat map 


HEP 


human genome project, HGP 


DDBJ 


S 


3-dimensional motif-based 
epistasis 

biomarker 

bioinformatics 

biomark 

experimental cell 

acceptor 

tree length 

normalization 

quantitative trait loci, QTL 
bi-direction search 
double-negative feedback 
sequence 

search strategy 

random coil 


non-deterministic search 


90 
67 


408 
440 


461 


460 
464 
463 
198 


458 
4,367 
20 


194 
369 


418 
76 
58 
222 
83 
391 
89 
445 
154 
89 
202 
89, 90 


T 
贪 焚 登 山 法 greedy climbing hill 90 
特异 性 specificity 112 
特征 选择 feature selection 89 
调控 的 反馈 环 regulated feedback loop 445 
同 源 建 模 homology modeling 164 
同 源 建 模 homology—modelling 173 
同 源 性 homology 32 

W 
完全 搜索 complete search 90 
网 络 network 332 
网 络 模块 network module 236,347 
网 络 模 体 236 
网 络 模 体 network motif 443 
网 络 模 序 motif 346 
(a Ab FR as microprocessor 408 
微 卫 星 microsatellite, MS 376 
微 效 性 minor effect 369 
微 阵列 microarray 75 
位 点 长 度 site length 222 
位 点 构 型 site configuration 223 
位 点 模式 site pattern 223 
位 点 频谱 site—frequency spectrum 228 
无 尺度 scale—free 237,436 
无 尺度 网 络 scale—free network 345 
无 规 卷曲 random coil 155 
无 权 网 络 unweighted network 333 
无 回 网 络 undirected network 332 
物理 图 谱 physical map 4 

X 
限制 性 内 切 酶 或 者 限制 性 的 标记 的 ”RLGS E 
基因 组 扫描 
相对 速率 检验 relative—rate test 224 
相互 作用 界面 interface 198 
相互 作用 位 点 interaction sites 198 


相似 性 similarity 32 








RIA 

向 后 选择 
向 前 选择 
小 干扰 RNA 
小 世界 

言 号 传导 通路 
信号 肽 
信使 RNA 
性 状 长 度 
序列 比 对 
序列 片段 对 
序列 图 谱 
选择 压力 
血 源 一 致 性 
训练 集 


亚 基 

阳性 预测 率 
药物 基因 组 学 
一 级 结构 
遗传 关联 数据 库 
遗传 算法 
遗传 图 谱 
遗传 异 质 性 

异 变 的 甲 基 化 区 域 
阴性 预测 率 
印记 控制 区 

有 问 网 络 

A lH] HA 
预 处 理 

原 位 合成 必 片 


增强 子 
Jr 
真 阳性 
正确 率 
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embedded method 
backward elimination 
forward selection 

small interfering RNA, siRNA 
small world 

signal transduction pathway 
signal peptide 

mRNA 

character length 

sequence alignment 
segment pair 

sequence map 

selective pressure 
identical-by-descent , IBD 


training set 


Y 


subunit 

positive predictive value, precision 
pharmacogenomics 

primary structure 

genetic association database, GAD 
genetic algorithm 

genetic map 

heterogeneity 

VMRs 

negative predictive value 
imprinting control region, ICR 
directed network 

directed acyclic graph 


pre-procession 


light-controlled in situ synthesis of DNA 


microarrays 


Z 


fold 


accuracy 


92 
89 
89 
408 
237 
337 
67 
284 
222 
32 
40 


43 
379 
11] 


156,203 
112 
9 
154 
371 
90 
4 
369 
489 
112 
466 
332 
47 
81 


T] 


288 
169 
112 
112 


下 选择 

支持 问 量 
CHF In] EAL 

直径 

EERDE 
直系 同 源 体 
指导 树 

rr] T es 

中 心 节 点 

中 性 学 说 
种 系 形成 
转换 - 题 换 矩阵 
转录 因子 

转录 因子 

转录 组 学 

转运 RNA 
状态 一 致 性 
自 组 织 映 射 

组 重 白 甲 基 转移 酶 
组 重 白 去 甲 基 化 酶 
组 蛋白 去 乙酰 化 酶 
组 蛋白 修饰 

组 熏 白 乙酰 化 转移 酶 
组 件 

组 织 差 异 甲 基 化 区 域 
祖先 重建 

最 大 完全 子 图 

最 简约 重建 
最 小 等 位 频率 
最 小 二 乘法 

最 小 公共 超 图 
最 小 进化 树 
最 优 超 分 面 
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positive selection 226 
support vector 1 10 
support vector machine, SVM 110, 205 
diameter 344 
orthology 32 
orthologs 32 
guide tree 45 
intermediate nodes , ITN 440 
hub 342 
neutral theory of molecular evolution 224 
speciation 32 
transition-transversion matrix 34 
300 
transcriptional factor, TF 428 
transcriptomics 9 
tRNA 284 
identical—by—state , IBS 380 
self-organizing map, SOM 104 
HMTs 478 
HDMTs 478 
HDAC 478 
histone modification 461 
HAT 478 
module 157 
T-DMRs 469, 473 
ancestral reconstruction 222 
clique 436 
most parsimonious reconstruction 223 
minor allele frequency, MAF 375 
least-squares , LS 221 
minimal common supergraph 47 
minimum evolution tree 222 
optimal hyperplane 110 


